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Shashank Tiwari 


创业 者 、 开 发 者 、 技 术 作 家 、 演 讲 者 
和 导师 ， 技 术 型 创业 公司 Treasury of ldeas 
( www.treasuryofideas.com ) 的 创始 人 。 

他 是 一 位 经 验 丰 富 的 软件 开发 者 和 
企业 家 ， 长 期 关注 高 性 能 应 用 、 分 析 、 
Web 应 用 以 及 移动 平台 ， 对 数据 可 视 化 
和 统计 机 器 学 习 有 着 浓厚 的 兴趣 ， 喜 欢 
喝 咖 啡 、 吃 甜点 、 骑 自行 车 。 他 撰写 了 
许多 技术 文章 和 著作 ， 并 且 应 邀 在 全 球 
各 地 的 技术 会 议 上 进行 演讲 。 

访问 www.treasuryofideas.com 可 以 
进一步 了 解 他 的 公司 和 业务 。 他 的 博客 
地 址 是 www.shanky.org，Twitter 账 号 是 
Qtshanky. 
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内 容 提 要 


本 书 是 一 本 全 面 的 NoSQL 实践 指南 。 书 中 主要 关注 NoSQL 的 基本 概念 ， 以 及 使 用 NoSQL 数据 库 的 
切实 可 行 的 解决 方 宁 。 书 中 介绍 了 基于 MapReduce 的 可 伸缩 处 理 ， 演 示 Hadoop 用 例 ， 还 有 Hive 和 Pig 这 
样 的 高 层 抽象 。 本 书包 含 许多 用 例 演 示 ， 同 时 也 会 讨论 Google, Amazon, Facebook, Twitter 和 LinkedIn 
的 可 伸缩 数据 架构 。 

本 书 适合 NoSQL 数据 库 管 理 人 员 和 开发 人 员 阅 读 。 
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省 以 此 书 献 给 我 的 父母 Suresh 和 Mandakini. 
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详 者 F 


NoSQL 很 有 趣 ， 因 为 它 和 高 性 能 、 分 布 式 、 海 量 数据 这 些 热 词 有 着 千 万 缕 的 联系 。 学 习 使 
用 NoSQL 的 过 程 中 ， 我 们 一 点 点 地 拆 解 原来 的 数据 库 、 分 布 式 系统 ， 在 不 同 的 场景 ， 不 同 的 假 
设 下 , 重新 审视 各 个 部 分 。 我 还 需要 这 块 吗 ? 那里 是 不 是 可 以 做 些 调整 ? 我 们 开始 仔细 审视 一 些 
理所当然 的 事实 。 到 了 最 后 ， 就 像 第 一 次 知道 分 子 的 学 生 ， 见 识 了 原子 的 内 部 ,也 见识 了 一 片 新 
世界 。 你 会 好 奇 , 这 个 新 世界 是 多 么 的 陌生 ,又 是 多 么 的 熟悉 。 它 的 原理 其 实 不 新 , 我 们 都 知道 。 
虽说 熟悉 ， 可 也 还 是 陌生 ， 那 么 多 条 路 指向 NoSQL 世界 的 深 处 ， 你 背 着 行李 兴奋 地 站 在 路 口 ， 
然而 ， 该 选 哪 条 路 呢 ? 就 选 《 深 入 NoSQL ) IEO, 

这 本 书 涉猎 广泛 ,举例 具体 ,不 需要 你 在 网 上 到 处 翻 查 零 散 的 文档 。 它 的 深度 适当 ， 内 容 容 
易 理 解 ， 知 你 需要 进一步 了 解 某 个 主题 ， 官 方 文 档 和 源 代 码 会 是 更 好 的 选择 。 我 建议 速 读 ， 为 此 
我 也 调整 了 许多 段落 的 句 式 , 希望 句子 短 而 清楚 , 像 快 节奏 的 发 点 , 众 着 你 马不停蹄 , 一气呵成 。 

程序 员 们 总 有 好 书 读 ， 新 书 看 ， 这 是 一 种 幸福 。 对 从 小 读 写 中 文 长 大 的 人 ， 中 文 更 易 读 ,也 
读 得 快 。 书 翻译 得 好 ， 不知 不 觉 中 就 为 读者 省 下 了 时 间 。 这 些 年 我 读 的 不 少 书 是 译 者 辛勤 劳动 的 
结晶 ， 和 希望 我 的 这 一 本 也 能 对 你 有 所 帮助 。 如 果 你 也 想 着 做 点 贡献 ， 翻 译 些 东 西 ， 我 会 诚 晨 地 过 
励 你 ， 和 希望 你 在 这 个 过 程 中 也 能 有 所 收获 。 
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ES HL PASSE, 所 生成 、 处 理 、 分 析 和 归档 的 数据 的 规模 快速 增 大 , 类 型 也 快速 增多 。 
此 外 ， 一 些 新 数据 源 也 在 生成 大 量 数据 ， 比 如 传 感 带 、 全 球 定位 系统 ( GPS )、 目 动 妃 踊 带 和 监 
控 系 统 。 这 些 大 数据 集 通关 被 称 为 大 数据 ， 它 们 给 存储 、 分 析 和 归档 市 来 了 新 的 机 遇 与 挑 成 。 

数据 不 仅 仪 快速 增长 ， 而 且 半 结构 化 和 稀 瑰 的 趋势 也 很 明显 。 这 样 一 来 ， 预 定义 好 schema 
和 利用 关系 型 引用 的 传统 数据 管理 技术 就 受到 了 挑战 。 

在 探索 海量 数据 和 半 结 构 化 数据 相关 问题 的 过 程 中 , 诞生 了 一 系列 新 型 数据 库 产 品 , 其 中 包 
括 列 族 数 据 库 ( column-oriented data store )、 键 / 值 数据 库 和 文档 数据 库 , 这 些 数据 库 统 称 NoSQL., 

NoSQL 产品 干 变 万 化 ， 特 性 和 价值 主张 各 有 不 同 ， 因 此 常 党 难以 选择 。 本 书 能 帮助 你 理解 
整个 NoSQL 领域 。 书 中 展示 了 构建 许多 NoSQL 产品 的 基本 概念 ， 上 覆盖 了 相对 较 多 的 NoSQL 产 
品 ， 而 非 单 单 次 入 介绍 某 一 种 产品 。 本 书 主要 关注 广度 和 基本 概念 ， 而 不 是 全 面纱 善 每 一 种 产品 
的 API。 因 为 要 介绍 不 少 NoSQL 产品 ， 所 以 会 涉及 大 量 的 比较 分 析 。 

如 采 不 确定 如 何 开始 用 NoSQL 以 及 如 何 学 习 管 理 和 分 析 大 数据 ， 那 么 你 会 发 现 本 书 是 一 本 
很 好 的 入 门 指南 和 参考 用 书 。 


读者 对 象 


本 书 的 主要 目标 读者 是 开发 者 、 架 构 师 、 数 据 库 管 理 员 以 及 技术 项 目 经 理 , 但 任何 理解 数据 
库 技 术 的 人 可 能 都 会 党 得 本 书 很 有 玫 助 。 

计算 机 专业 的 许多 学 生 和 研究 员 也 会 对 大 数据 和 NoSQL 这 一 主题 感 兴趣 ， 他 们 会 因 阅 读本 
书 而 获 益 展 多 。 

任何 开始 进行 大 数据 分 析 和 使 用 NoSQL 的 人 也 都 能 从 本 书 中 受益 。 


本 书 内 容 


本 书 首先 介绍 NoSQL 的 基础 知识 ， 然 后 逐步 过 渡 到 围绕 性 能 调 优 和 巢 构 性 指引 的 高 阶 概念 
上 。 我 们 主要 关注 与 NoSQL 相关 的 基本 概念 , 并 以 许多 不 同 的 NoSQL 产品 为 例 来 解释 它们 。 B 
中 包括 了 有 关 MongoDB, CouchDB, HBase, Hypertable, Cassandra, Redis 和 BerkeleyDB 的 演 
示 和 样 例 ， 此 外 还 包括 其 他 一 些 NoSQL 产品 。 
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NoSQL 很 重要 的 一 部 分 就 是 大 数据 处 理 。 本 书 将 介绍 基于 MapReduce 的 可 伸缩 处 理 ， 演 示 
Hadoop 用 例 ， 还 有 Hive 和 Pig 这 样 的 高 层 抽象 。 

第 10 章 关 注 云 NoSQL， 介 绍 Amazon Web Service 和 Google App Engine 提供 的 平台 。 

本 书包 含 许多 用 例 演 示 ， 同 时 也 会 讨论 Google, Amazon, Facebook, Twitter 和 LinkedIn 的 
可 伸缩 数据 架构 。 

在 最 后 一 部 分 中 ， 本 书 会 比较 NoSQL 产品 ， 讨 论 不 同 产品 在 应 用 程序 栈 中 共存 的 话题 。 


本 书 结构 


本 书 分 为 四 大 部 分 : 
Q NoSQL 入 门 
口 NoSQL 基础 
口 熟悉 NoSQL 
口 掌握 NoSQL 
每 部 分 的 内 容 都 是 以 前 一 部 分 为 基础 的 。 
第 一 部 分 为 NoSQL AT], EXT NoSQL 产品 的 类 型 ， 并 初次 介绍 了 用 NoSQL 存储 和 访问 
数据 的 几 个 例子 。 
口 第 1 AE X NoSQL, 
口 第 2 章 以 超 经 典 的 Hello world 程序 开头 ， 介 绍 了 几 个 使 用 NoSQL 的 例子 。 
Q 第 3 章 介 绍 NoSQL 产品 交互 与 接口 。 
第 二 部 分 介绍 了 各 种 NoSQL 产品 的 一 些 基 本 概念 。 
OQ 第 4 S RECETAS AS o 
口 第 5 划 和 第 6 草 介绍 基本 的 数据 管理 ， 演 示 CRUD 操作 和 查询 机 制 。 数 据 集 随 时 间 和 使 
用 情况 而 演变 。 
口 第 7 章 探讨 数据 演变 相关 的 问题 。 传 统 的 关系 型 数据 库 关 注 利 用 索引 来 优化 查询 。 
口 第 8 章 介 绍 NoSQL 下 的 索引 。 对 NoSQL 产品 缺少 事务 支持 的 批评 往往 过 头 。 
Q 第 9 章 陈 清 事务 相关 概念 ， 以 及 分 布 式 系统 所 面临 的 事务 完整 性 挑战 。 
第 三 、 四 部 分 介绍 高 阶 话 题 。 
口 第 10 草 介绍 Google App Engine 数据 存储 和 Amazon SimpleDB。 很 多 大 数据 人 处理 有 赖 于 
MapReduce 风格 的 处 理 方式 。 
口 第 11 草 介 绍 MapReduce 的 基本 知识 。 
a 第 12 章 扩展 了 MapReduce I7 sii i F8], 以 演示 Hive 为 Hadoop MapReduce 任务 提供 的 类 
SQL 抽象。 第 13 草 回 顾 了 数据 库 架 构 及 内 部 结构 。 
第 五 部 分 是 本 书 的 最 后 一 部 分 。 第 14 章 比较 NoSQL 产品 ; 第 15 章 提出 了 共存 的 想法 ， 以 
及 按 需 选择 数据 库 的 观点 ; 第 16 鞋 谈论 可 伸缩 应 用 程序 的 优化 。 本 部 分 的 话题 看 似 驶 杂 ， 却 为 
实际 应 用 NoSQL 打下 了 基础 。 第 17 革 展 示 一 些 工具 和 实用 程序 ， 部 和 著 NoSQL 时 用 得 上 。 
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阅读 必 备 
请 参照 各 处 代码 示例 安装 相应 的 软件 ， 安 装 步骤 和 设置 说 明 参 见 附录 A. 
本 书 约 定 








为 了 描述 得 更 加 清楚 明 了， 在 本 书 中 我 们 有 如 下 约定 。 






本 格式 表示 针对 目前 讨论 内 容 的 注释 、 小 技巧 、 提 示 等 。 


段落 样式 如 下 。 





O 楷体 表示 新 词 及 重点 词 。 
口 文件 名 、URL 和 书 中 的 代码 使 用 如 下 这 种 字体 : persistence.properties. 
D 代码 有 两 种 展示 方法 : 大 部 分 代码 样 例 使 用 monofont 字体 ， 无 高 亮 ; 当前 上 下 文中 重要 
的 代码 以 及 与 之 前 代码 段 不 同 的 代码 加 粗 显示 。 
源 代码 


对 于 本 书 所 有 例子 中 的 代码 , 你 可 以 手工 输入 ,也 可 以 使 用 本 书 附 市 的 源码 文件 。 所 有 源码 
可 从 www.wrox.com 下 载 。 在 网 站 上 通过 本 书 书 名 (使 用 检索 框 或 书 名 列表 ) 进入 本 书 的 详情 页 ， 
点 击 下 载 代 人 码 的 链接 即 可 获取 源码 。 网 站 上 包含 的 代码 部 附 有 下 面 的 图 标 : 


J 


代码 示例 的 标题 里 包含 源码 文件 名 。 如 末 只 是 代码 片段， 则 文件 名 如 是 : 


Code snippet f lename 








因为 很 多 书 名 很 相似 ， 所 以 按 ISBN 号 可 能 查 起 来 更 容易 。 本 书 ISBN 号 





Æ 9778-0-470-94224-6,, 





下 载 好 的 代码 可 以 用 解压 缩 工 具 打 开 。 除 此 之 外 , 在 下 载 页 面 www.wrox.com/dynamic/books/ 
download.aspx 也 能 看 到 本 书 及 Wrox 其 他 图 书 的 代码 。 


勘误 
虽然 我 们 尽 全 力 消除 文本 和 代码 中 的 所 有 错误 , 但 错误 总 是 难以 避免 的 。 如果 你 发 现 了 本 书 
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的 错误 ， 比 如 拼写 错误 或 问题 代码 ,请 反馈 给 我 们 ， 非常 感谢 ! 如 条 你 能 指出 一 个 问题 ， 也 许 就 
能 避免 另 一 位 谈 者 的 困惑 ， 同 时 也 能 帮助 我 们 提高 本 书 的 质量 。 

要 前 往 本 书 的 勘误 页 ， 请 访问 www.wrox.com， 通 过 书 名 进入 本 书 的 详情 页 ， 然 后 点 击 勘 误 
( Book Errata ) 链接 。 在 该 页 面 中 ,你 可 以 看 到 由 读者 提交 并 由 Wrox 编者 发 布 的 本 书 的 所 有 勘误 。 
要 想 获 得 完整 的 图 书 列表 及 每 本 书 的 勘误 链接 , 也 可 以 访问 www.wrox.com/misc-pages/booklist.shtml。 

如 果 在 勘误 页 上 没 找 到 你 发 现 的 错误 ， 请 前 往 www.wrox.com/contact/techsupport.shtml, H 
写 表单 提交 你 发 现 的 错误 。 我 们 会 尽快 确认 信息 ， 如 有 果 勘 误 正 确 , 会 在 勘误 页 上 发 布 ， 并 在 本 书 
的 后 续 版 本 中 修正 问题 。 


























P2P.WROX.COM 


在 想 与 包括 本 书 作 者 在 内 的 同行 们 讨论 ， 请 加 入 P2P 论坛 (p2p.wrox.com )。 这 个 Web 论坛 
主要 用 于 发 布 Wrox 图 书信 息 及 相关 技术 消息 ， 以 及 与 其 他 该 者 及 技术 用 户 互 动 。 论 坛 提供 主题 
订阅 功能 ， 选 定 了 自己 感 兴趣 的 主题 后 ,每 当 有 相应 主题 的 新 帖 发 布 时 , 论坛 会 以 电子 邮件 的 形 
IOMAIR Wrox 人 作者、 编者、 其 他 行业 专家 和 读者 都 会 在 这 里 活动 。 

在 p2p.wrox.com ,你 会 发 现 一 系列 不 同 的 论坛 ， 它们 不 仪 对 你 阅读 本 书 有 所 帮助 ， 同样 也 能 
在 你 开发 应 用 时 提供 帮助 。 加 入 论坛 请 参照 下 面 的 步骤 。 

(1) 前 往 p2p.wrox.com， 点 击 注册 链接 。 

(2) 阅读 使 用 守则 并 点 击 “ 同 意 ”。 

(3) 输入 必 上 于 信息 及 其 他 你 乐于 提供 的 可 选 信息 ， 并 点 击 “ 提 交 ”。 
































(4) 你 会 收 到 一 封 邮 件 ， 其 中 摘 述 了 如 何 确 认 你 的 账户 和 完成 加 入 论坛 的 流程 。 






阅读 消息 无 需 在 POP 上 注册 ， 但 如 果 要 发 布 消息 ， 就 必须 加 入 论坛 。 


加 入 论坛 后 ， 可 以 发 布 新 消息 和 回复 他 人 发 布 的 消息 。 任 何 时 候 你 都 可 以 通过 Web 浏览 论 
坛 。 如 果 和 硕 望 通过 电子 邮件 接收 特定 论坛 的 新 消息 ， 请 在 论坛 列表 中 点 击 论坛 名 称 劳 边 的 “ 订 
阅 本 论坛 ”图 标 。 

要 了 解 更 多 有 关 Wrox P2P 的 信息 ,请 阅读 P2PFAQ ( 点击 P2P 页 面 上 的 FAQ 链接 ) 了 解 论 
坛 使 用 方法 ， 以 及 P2P 和 Wrox 图 书 常见 问题 。 
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sla 


NoSQL 的 概念 及 适用 沁 围 


本 章 内 容 

口 NoSQL 的 定义 

口 NoSQL 的 历史 

口 介绍 各 种 NoSQL 数据 库 

O 列举 一 些 流行 的 NoSQL 产品 


言 ! 在 学 习 NoSQL 的 路 上 你 已 经 勇敢 地 迈 出 了 第 一 步 。 
IIN 与 大 多 数 新 兴 技 术 一 样 ，NoSQL 被 铠 惧 、 不 确定 和 疑惑 乱 淖 着。 根据 对 待 NoSQL 的 
态度 ， 开 发 者 大 致 能 划分 成 以 下 三 类 。 

口 喜欢 它 的 人 : 他 们 人 研究 NoSQL 是 否 适 用 于 某 套 应 用 程序 栈 。 他 们 使 用 NoSQL 、 创 造 
NoSQL， 一 直 处 于 NoSQL 领域 发 展 的 前 沿 。 

OQ 讨厌 它 的 人 : 这 些 人 要 么 盯 着 NoSQL 的 短处 不 放 ， 要 么 试图 证 明 它 毫 无 价值 。 

OQ 观望 它 的 人 : 此 类 开发 者 属于 不 可 知 论 者 ， 因 为 他 们 或 者 在 等 待 NoSQL 技术 成 熟 , 或 者 
认为 NoSQL 只 会 流行 一 时 ， 而 忽略 它 就 可 以 避免 “炒作 周期 (hype cycle )》” 种 来 的 负面 
影响 ， 又 或 者 他 们 只 是 没有 机 会 使 用 NoSQL。 




















Gartner 发 明了 炒作 周期 一 词 ， 以 表示 一 种 技术 的 成 熟 度 、 市 场 接受 度 以 


及 商业 应 用 程度 。 更 多 内 容 请 访问 http://en.wikipedia.org/wiki/Hype Cycle. 








我 属于 第 一 类 人 。 写 一 本 NoSQL 主题 的 书 恰好 证 明了 我 对 这 项 技术 的 喜爱 。 襄 欢 /讨厌 
NoSQL 的 人 按照 信仰 程度 的 不 同 还 可 以 进一步 划分 : 从 温和 派 到 极端 主义 者 。 我 属于 温和 派 。 
鉴于 此 ， 我 希望 展示 的 是 ，NoSQL 作为 一 种 强 有 力 的 工具 ， 非 常 适合 完成 某 些 工作 ， 同 时 它 也 
存在 短处 。 我 希望 读者 能 之 着 一 种 开放 的 、 没 有 偏见 的 心态 来 学 习 NoSQL。 掌 握 这 项 技术 和 它 
背后 的 思想 ， 你 就 能 对 NoSQL 的 使 用 价值 做 出 自己 的 判断 ， 并 能 根据 特定 的 应 用 或 场景 恰当 地 
利用 NoSQL. 

第 1 童 为 NoSQL 入 门 。 本章 简单 介绍 什么 是 NoSQL, 它 具 备 怎 样 的 特性 , 典型 用 例 有 哪些 ， 
以 及 它 在 应 用 程序 栈 中 适 于 哪 种 位 置 。 
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1.1 定义 和 介绍 


字面 上 NoSQL 是 两 个 词 的 组 合 : No 和 SQL， 它 暗示 了 NoSQL 技术 /产品 与 SQL 之 间 的 对 
立 性 。 其 实 这 个 术语 的 发 明 人 和 早期 使 用 者 的 意思 很 可 能 是 NoRDBMS (No Relational Database 
Management System， 非 关系 型 数据 库 管 理 系统 ) 或 者 Norelational ( 非 关 系 型 )， 但 因为 NoSQL 
的 发 音 更 好 听 , 最 终 选 择 了 这 个 词 。 后 来 有 人 提议 用 NonRel 来 代替 NoSQL, 还 有 人 提出 NoSQL 
实际 上 是 “Not Only SQL" (不仅 是 SQL ) 的 简称 ， 以 试图 挽回 原来 的 术语 。 不 管 字面 意思 如 何 ， 
今天 NoSQL 泛 指 这 样 一 类 数据 库 和 数据 存储 ， 它 们 不 草 循 经 典 RDBMS JJ, HAE Ej Web 规模 
的 大 型 数据 集 有 关 。 换 名 话说，NoSQL 并 不 单 指 一 个 产品 或 一 种 技术 ， 它 代表 一 族 产 品 ， 以 及 
一 系列 不 同 的 、 有 时 相互 关联 的 、 有 关 数 据 存 储 及 处 理 的 概念 。 














1.1.1 背景 与 历史 


在 详细 介绍 各 种 NoSQL 类 型 及 其 相关 概念 之 前 , 还 有 一 件 重要 的 事情 , 那 就 是 了 解 NoSQL 
出 现 的 大 背景 。 非 关系 型 数据 库 并 不 是 阳春 日 雪 , 事实 上 , 最 早 的 非 关 系 型 存储 可 以 追溯 到 第 一 
批 计算 机 出 现 的 时 期 。 在 大 型 机 出 现 的 年 代 里 , 非 关 系 型 数据 库 曾 获得 繁 采 的 发 展 , 并 旦 在 特定 
的 专业 领域 里 C 比如 存储 认证 和 授权 信息 的 层级 目录 ) 一 直 延 续 至 今 。 话 说 回来 ,这些 诞 生 在 大 
规模 互联 网 应 用 时 代 里 ， 并 在 NoSQL 舞台 雷 脸 的 非 关 系 型 存储 确实 算得 上 是 新 鲜 玩 意 儿 。 这 些 
非 关 系 型 的 NoSQL 存储 大 都 孕育 目 分 布 式 和 并 行 计算 大 行 其 道 的 年 代 。 

从 可 被 视 作 第 一 个 搜索 引擎 的 Inktomi 开始 ， 到 后 来 的 Google, 广泛 采用 的 天 系 型 数据 库 管 
HMR (RDBMS ) 应 用 于 海量 数据 时 ， 骏 露出 了 一 系列 目 身 的 问题 。 这 些 问 题 与 高 效 的 数据 处 
理 、 高 效 的 并 行 化 、 可 扩展 性 和 成 本 有 关 。 在 本 和 草 及 之 后 的 讨论 中 , 我 们 不 仅 会 了 解 所 有 这 些 问 


局 ， 还 会 探寻 可 能 的 解决 方案 。 



































RDBMS 的 挑战 

Web 级 别 大 规模 数据 处 理 对 RDBMS 的 挑战 其 实 并 非特 定 于 茶 一 个 产品 ,所 有 同类 数据 库 
都 面临 着 严峻 的 考验 。RDBMS 假定 数据 的 结构 已 明确 定义 ， 数 据 是 致密 的 ， 并 且 很 大 程度 上 
是 一 致 的 。RDBMS 构建 在 这 样 的 先决 条 件 上 ， 即 数据 的 属性 可 以 预先 定义 好 ， 它 们 之 间 的 相 
互 关系 非常 稳固 且 被 系统 地 引用 (Systematically referenced )。 它 还 假定 定义 在 数据 上 的 索引 能 
保持 一 致 性 ， 能 统一 应 用 以 提高 查询 的 速度 。 不 幸 的 是 ， 一 旦 这 些 假设 无 法 成 立 ，RDBMS 就 
立刻 暴露 出 问题 。 当 然 ，RDBMS 可 以 容忍 一 定 程度 的 不 规律 和 结构 缺乏 ,但 在 松散 结构 的 海 
量 稀 玖 数据 面前 ，RDBMS 就 显得 勉 为 其 难 了 。 在 大 规模 数据 面前 ,传统 存储 机 制 和 访问 方法 
捉襟见肘 。 为 了 帮助 RDBMS 扩展 ， 你 可 以 对 表 做 逆 规 范 化 处 理 、 去 掉 约 束 和 放宽 事务 保障 ， 
但 经 过 了 这 些 修改 的 RDBMS 其 实 更 类 似 一 个 NoSQL 产品 。 

灵活 性 是 有 代价 的 。NoSQL 缓解 了 RDBMS 引发 的 问题 并 降低 了 处 理 海量 稀世 数 据 的 难 
度 ， 但 是 反 过 来 也 被 李 去 了 事务 完整 性 的 力量 和 灵活 的 索引 及 查询 能 力 。 极 为 讽刺 的 是 ， 
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NoSQL 产品 中 最 令 人 怀念 的 一 个 特性 正 是 SQL， 这 一 领域 里 的 产品 供应 商 们 都 在 努力 尝试 各 
证 





过 去 几 年 间 ，Google 建造 了 大 规模 可 扩展 的 基础 设施 ， 用 于 文 撑 Google 的 搜索 引擎 和 其 他 
应 用 ， 包 括 Google Maps. Google Earth, Gmail, Google Finance 以 及 Google Apps。 其 策略 是 在 
应 用 程序 栈 的 每 个 层面 上 分 别 解决 问题 ， 旨 在 建立 一 套 可 伸缩 的 基础 设施 来 并 行 处 理 海 量 数据 。 
为 此 Google 创建 了 一 整套 完备 的 机 制 ， 包 括 分 布 式 文件 系统 、 面 向 列 族 的 数据 存储 、 分 布 式 协 
调 系统 和 基于 MapReduce 的 并 行 算法 执行 环境 。Google 大 方 地 公开 发 布 了 一 系列 论文 来 解释 其 
基础 设施 中 一 些 关 键 的 组 成 部 分 ， 其 中 最 重要 的 论文 包括 下 面 几 篇 。 
OQ Sanjay Ghemawat、 Howard Gobioff 和 Shun-Tak Leung, "The Google File System" ; pub.19th 
ACM Symposium on Operating Systems Principles, Lake George, NY, October 2003 。 和 链接 : 
http://labs.google.com/papers/gfs.html ; 








D Jeffrey Dean fll Sanjay Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters"; 
pub. OSDI'04: Sixth. Symposium on Operating System Design and Implementation, San 
Francisco, CA, December 2004。 链 接 : http://labs.google.com/papers/mapreduce.html 


Q Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike 
Burrows , Tushar Chandra , Andrew Fikes 和 Robert E. Gruber, “Bigtable: A Distributed Storage 
System for Structured Data" ; pub. OSDI'06: Seventh Symposium on Operating System Design 
and Implementation, Seattle, WA, November 2006 。 链 接 : http://labs.google.com/papers/ 
bigtable.html ; 

OQ Mike Burrows, "The Chubby Lock Service for Loosely-Coupled Distributed Systems" ; 


pub.OSDI'06: Seventh Symposium on Operating System Design and Implementation, Seattle, 
WA, November 2006, $E: http://labs.google.com/papers/chubby.html 









如 果 你 在 阅读 这 一 部 分 或 本 齐 后 面部 分 时 ,对 其 中 介绍 的 一 系列 术语 和 概 
念 感 到 非常 困惑 和 不 堪 重 负 ,， 可 以 稍 事 休息 喘 口 气 。 本 书 采 用 相对 轻松 的 节奏 
来 解释 所 有 相关 概念 。 你 不 需要 一 口气 学 会 所 有 东西 ， 按 顺序 阅读 ， 待 读 完 全 
书 ， 自 然 会 理解 所 有 与 NoSQL 和 大 数据 相关 的 重要 概念 。 










Google 相关 论文 的 公开 发 表 引 起 了 开源 开发 者 的 广泛 关注 和 浓厚 兴趣 。 很 快 ， 第 一 个 模仿 
Google 基础 设施 部 分 特性 的 开源 软件 就 开发 出 来 了 ， 它 的 创建 者 正 是 开源 搜索 引擎 Lucene 的 发 
明 人 。 紧 接着 ，Lucene 的 核心 开发 者 们 加 入 了 Yahoo!， 在 那里 ,依靠 众多 开源 贡献 者 的 支持 ， 
参照 Google 的 分 布 式 计 算 架 构 , 开发 者 们 创建 出 了 一 个 能 够 奉 代 Google 基础 设施 所 有 部 分 的 开 
源 产品 ， 这 就 是 Hadoop 及 其 子 项 目 和 相关 项 目 。 更 多 有 关 Hadoop 的 信息 、 代 码 和 文档 请 访问 
http://hadoop.apache.org. 

在 这 里 我 们 不 再 歼 述 Hadoop 发 展 史 ，NoSQL 思想 诞生 在 Hadoop 发 行 第 一 个 版 本 之 前 。 谁 
在 什么 时 候 创 造 了 NoSQL 这 个 术语 并 不 重要 ， 重要 的 是 Hadoop 的 出 现 为 NoSQL 的 快速 发 展 黄 
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定 了 坚实 的 基础 ， 而 Google 的 成 功 则 帮助 大 众 接受 了 新 时 代 的 分 布 式 计算 理念 、Hadoop 项 目 以 "m 
及 NoSQL。 

Google 的 论文 激发 了 人 们 对 并 行 大 规模 处 理 和 分 布 式 非 关系 型 数据 存储 的 兴趣 ， 一 年 后 ， 
Amazon 分 享 了 他 们 的 成 功 经 验 。2007 年 Amazon 对 外 展示 了 它 的 分 布 式 高 可 用 、 最 终 一 致 性 数 
Hi, HAE Dynamo。 更 多 有 关 Amazon Dynamo 的 内 容 可 以 在 一 篇 研究 论文 里 读 到 ， 论 文 
提 录 如 下 : Giuseppe DeCandia, Deniz Hastorun, Madan Jampani, Gunavardhan Kakulapati, Avinash 
Lakshman, Alex Pilchin, Swami Sivasubramanian, Peter Vosshall, and Werner Vogels, "Dynamo: 
Amazon's Highly Available Key/value Store," in the Proceedings of the 21st ACM Symposium on 
Operating Systems Principles, Stevenson, WA, October 2007, J7h, Amazon 的 CTO Werner Vogels 
在 一 篇 博文 中 解释 了 Amazon Dynamo 背后 的 关键 思想 ， 博 文 地 址 为 : www.allthingsdistributed. 
com/2007/10/amazons dynamo.html; 

随 着 NoSQL 得 到 两 大 领先 Web 巨人 Google 和 Amazon 的 支持 , 领域 中 新 产品 相继 出 现 。 大 
量 开 发 者 开始 在 他 们 的 应 用 程序 中 尝试 这 些 产 品 。 小 到 初创 公司 ,大 到 大 型 企业 , 许多 企业 都 开 
始 愿 意 学 习 更 多 相关 技术 和 借鉴 相关 方法 。 在 不 到 五 年 的 时 间 里 ，NoSQL 和 用 于 管理 大 数据 的 
概念 得 到 了 广泛 传播 ， 众多 知名 公司 中 开始 涌现 各 种 用 例 ， 其 中 包括 Facebook, Netflix, Yahoo, 
EBay、Hulu FI IBM 等 。 其 中 许多 公司 也 通过 开源 问世 界 贡 献 出 了 他 们 目 己 的 扩展 组 件 和 新 产品 。 

很 快 你 将 会 了 解 到 有 关 各 种 NoSQL 产品 的 知识 ， 包 括 它们 的 相似 之 处 和 不 同 特点 ,但 此 时 
此 刻 请 允许 我 完 暂 时 离 题 , 对 有 关 大 数据 及 并 行 处 理 的 一 些 挑 战 和 解决 方案 做 个 简短 介绍 。 此 番 
绕 行 偏 题 则 在 帮助 所 有 读者 为 探索 NoSQL 产品 做 好 准备 。 


1.1.2 ”大 数据 


多 大 的 数据 量 才 算 大 ?如果 你 就 这 个 问题 询问 不 同 的 人 ， 必 然 会 得 到 不 同 的 答案 。 此 外 , 答 
案 还 可 能 随 提问 的 时 机 而 发 生变 化 。 就 现在 而 言 ， 任何 超 过 几 个 TB IUNII IOS SERE n] EAR AA: 
数据 。 这 是 数据 集 大 到 开始 器 越 多 个 存储 单元 的 典型 人 寸 , 也 是 传统 RDBMS 技术 开始 表现 出 吃 



































数据 大 小 的 计算 

字 节 (byte ) 是 数字 信息 的 单位 ，1 字 节 等 于 8 比特 (bit )。 在 国际 单位 制 中 ，1 个 字 节 的 
每 1000 倍 被 赋予 一 个 不 同 的 名 称 : 

Kilobyte (kB)——10 

Megabyte (MB)——10° 

Gigabyte (GB)——10” 

Terabyte (TB)——10^ 

Petabyte (PB)— —10P? 

Exabyte (EB)——10! 

Zettabyte (ZB) — —10?! 
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Yottabyte (YB)—— 一 10” 
在 传统 二 进 制 中 ,倍数 应 当 是 2 ( 3 1024 ) 而 非 10 (或 1000 )。 为 了 避免 混 消 ， 同 时 还 
存在 一 个 以 2 为 圭 的 命名 法 
Kibibyte (KiB)——2 ? 
Mebibyte (MiB)——2^? 
Gibibyte (GIB)——2 9 
Tebibyte (TiB)——2^? 
Pebibyte (PiB)——2^? 
Exbibyte (EiB)——2^ 
Zebibyte (ZiB)——2^ 
Yobibyte (YiB)——2*. 


就 在 几 年 前 ，1TB 个 人 数据 可 能 就 算 非 党 庞大 的 了 , 但 如 今 ， 本 地 便 盘 驱动 各 和 备份 驱动 如 
的 容量 通常 都 有 这 人 么 大 。 可 以 料想 ， 未 来 几 年 里 ， 即 便 硬盘 驱动 器 的 默认 容量 超过 了 数 个 TB 也 
PENT. 我 们 生活 在 一 个 ; 数据 大 爆炸 的 时 代 里 , 数码 相机 的 输出 、 博 客 、 日 第 的 社交 网 络 更 新 、 
微 博 、 电 子 文档 、 扫 描 的 内 容 、 首 乐 文件 以 及 视频 都 在 快速 增多 。 可 以 说 ,我 们 在 消费 大 量 数 据 
的 同时 ， 也 在 生成 大 量 数据 。 

要 佑 算 电 子 数据 或 互联 网 的 真实 大 小 非常 困难 ， 据 研究 估算 和 数据 显示 ， 这 个 值 非常 之 大 ， 
可 能 在 ZB 量 级 ， 其 至 更 大 。 一 项 正在 进行 的 名 为 “The Digital Universe Decade — Are you ready?" 
( http://emc.com/collateral/demos/microsites/idc-digital-universe/iview.htm ) 的 人 研究 中 ,IDC 代表 EMC 
展示 了 电子 数据 目前 的 状态 及 其 增长 速度 。 报 告 称 ， 到 2020 年 创建 和 复制 的 电子 数据 总 规模 将 
达到 35ZB。 报 告 同时 声称 ， 目 前 生成 的 和 可 用 的 数据 总 量 正在 逐渐 超过 可 用 的 存储 总 量 。 

其 他 一 些 值得 思考 的 数据 包括 : 

a ACM 里 一 篇 于 2009 年 发 表 的 论文 , 标题 为 “MapReduce: simplified data processing on large 
clusters " ( http://portal.acm.org/citation.cfm?id=1327452.1327492&coll=GUIDE&dl=&idx= 
J79&part-magazine&WantType-Magazines&title- Communications96200f9620the9920A CM ), 
揭示 Google 每 天 要 处 理 24PB 的 数据 。 

口 2009 4 Facebook 上 一 篇 有 关 其 相片 存储 系统 的 博文 : Needle in a haystack: efficient storage 
of billions of photos" ( http//facebook.com/note.php?note id—76191543919), $$ Facebook 
存储 的 相 卢 总 量 达到 1.3PB。 同 一 篇 文 草 还 提 到 Facebook. 上 大 约 存储 了 600 亿 张 图 片 。 

口 互联 网 档案 的 FAQ 页 面 (archive.org/about/faqs.php ) 提 到 存储 在 互联 网 档案 里 的 数据 高 
E. 2PB， 并 声称 数据 增长 率 达 到 每 月 20TB。 

电影 《 阿 几 达 》 为 演 染 3D CGI 效果 使 用 的 存储 空间 达到 了 IPB (“Believe itor not: Avatar 
takes 1 petabyte of storage space, equivalent to a 32-year-long MP3” : http://thenextweb.com/ 


























2010/01/01/avatar-takes-1 -petabyte-storagespace-equivalent-32-year-long-mp3/ ). 
随 关 数据 规模 的 增长 和 数据 创建 来 源 的 日 趋 多 元 化 ， 以 下 挑战 将 日 益 严 峻 。 
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OQ 高 效 存储 和 访问 大 量 数据 很 难 。 额 外 要 求 的 容错 和 备份 使 事情 变 得 更 加 复杂 。 "m 
D 操作 大 数据 集 涉 及 大 量 并 行进 程 。 运 行 过 程 中 要 从 任何 故障 中 平稳 恢复 过 来 ， 同 时 还 要 
在 合理 的 时 间 范 围 内 返回 结果 ， 这 非常 复杂 。 
口 各 种 不 同 数据 源 生成 的 半 结 构 化 和 无 结构 数据 的 schema 和 元 数据 持续 不 断 变化 ， 对 它们 
的 管理 是 一 个 令 人 头疼 的 问题 。 
因此 ， 我 们 需要 新 方法 ， 它 们 在 存 取 大 量 数 据 方面 比 现行 方法 更 有 效 。NoSQL 和 相关 的 大 
数据 解决 方案 正 是 朝 这 个 方向 迈 出 的 第 一 步 。 
除了 数据 ， 同 时 增长 的 还 有 规模 。 

















磁盘 存储 和 数据 读 写 速度 

尽管 数据 量 和 存储 容量 都 在 增长 , 但 是 磁盘 的 存 取 速 度 , 即 数据 写 入 磁盘 和 从 其 中 读 出 数 
据 的 速度 并 没有 同步 增长 。 目 前 典型 的 超过 平均 水 平 的 1TB 磁盘 声称 数据 访问 速率 能 达到 
300Mbps， 转 速 能 达到 7200RPM。 以 此 峰值 速度 读 取 ITB 数据 需要 大 约 1 小 时 (最 好 的 情况 
下 是 55 分 钟 )。 数 据 量 再 增加 ， 则 花费 的 时 间 只 增 不 减 。 此 外 ， 号 称 转 速达 到 7200RPM 时 访 
问 速 率 能 达到 300Mbps 本 身 也 是 误导 。 传 统 的 旋转 介质 使 用 圆 形 存 储 磁盘 来 优化 表面 积 。 在 
圆 上 ，7200RPM 所 代表 的 数据 访问 量 实际 取决 于 所 访问 的 同心 圆 的 圆周 。 当 磁盘 逐渐 被 数据 
填 满 以 后 ， 周 长 逐渐 变 小 ， 寻 致 每 次 旋转 的 履 盖 面积 减少 。 当 磁盘 的 65% 以 上 被 填 满 后 ， 
300Mbps 的 峰值 速率 会 大 幅 下 降 。SSD (Solid-state driver, E] SAA ) 是 旋转 介质 的 一 种 替代 
品 。SSD 使 用 微型 芯片 ， 而 非 机 电 旋 转 磁 盘 ， 它 将 数据 保存 在 钨 失 性 随机 访问 存储 器 〈volatile 
random-access memory ) 中 。 与 旋转 介质 相 比 ，SSD 承诺 更 高 的 速度 和 IOPS 性 能 (input/output 
operations per second， 每 秒 读 写 操作 次 数 )。2009 年底 到 2010 年 初 ， 美 光 科 技 (Micron) 等 公 
8] 宣称 他 们 可 以 提供 超过 Gbps 水 平 访问 速度 的 SSD (www.dailytech.com/UPDATED+Micron+ 
Announces-* Worlds--First-Native--6Gbps-S ATA *Solid--State--Drive/articlel7007.htm )。 尽管 如 此 ， 
现状 是 SSD 仍然 充满 bug 和 各 种 问题 ， 而 且 成 本 远 高 于 它 的 对 于 磁盘 。 鉴 于 数据 读 写 速率 受 
限于 磁盘 访问 速度 ,因此 只 能 把 数据 分 散 到 多 个 存储 单元 上 ,而 不 是 集中 在 单一 的 大 型 存储 中 。 


1.1.3 可 扩展 性 


可 扩展 性 是 一 种 能 力 , 有 了 它 系 统 能 通过 增加 资源 提高 否 吐 量 进而 解决 境 加 的 负 傈 。 可 扩展 
性 可 以 通过 两 种 方式 实现 , 一 是 配置 一 个 大 而 强 的 资源 来 满足 额外 的 需求 , 二 是 依 知 由 普通 机 需 
组 成 的 集群 。 使 用 大 而 强 的 机 希 通 稼 属于 垂直 可 扩展 性 。 典 型 的 垂直 扩展 方案 是 使 用 配 有 大 量 
CPU 内 核 旦 耳 接 挂 载 大 量 存储 的 超级 计算 机 。 这 类 超级 计算 机 通常 极其 帅 贯 , 属于 专 有 设备 。 蔡 
代 垂 直 扩 展 的 是 水 平 扩展 。 水平 扩展 使 用 商业 系统 集群 ,集群 随 负 载 的 增加 而 扩展 。 水 平 扩 展 通 
各 需要 添加 额外 的 节点 来 应 付 额 外 的 负载 。 

大 数据 以 及 大 规模 并 行 处 理 数据 的 需要 促使 水 平 扩展 得 到 了 广泛 的 采纳 。 在 Google, 
Amazon, Facebook, eBay 和 Yahoo!， 水 平 扩展 的 基础 设施 包含 数量 巨大 的 服务 硕 ， 其 中 一 些 包 
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T JU T XUL SUR A d 
对 水 平 扩 展 集群 上 分 布 的 数据 进行 处 理 是 非常 复杂 的 事情 。 在 水 平 集群 上 处 理 大 规模 数据 的 
方法 里 ，MapReduce 模型 可 能 要 算是 最 好 的 。 








1.1.4 MapReduce 


MapReduce 这 种 并 行 编程 模型 支持 在 水 平 集群 上 对 大 规模 数据 集 进行 分 布 式 处 理 。 
MapReduce 框架 是 Google 的 专利 ( http://patft.uspto.gov/netacgi/nph-Parser?Sect] -PTO1&Sect2- 
HITOFF&d-PALL&p-1 &u-/netahtml/PTO/srchnum.htm&r-1 &f-G&l-50&s1-7,650,331.PN.&OS- 
PN/7,650,331&RS=PN/7,650,331 )， 但 其 核心 思想 可 以 和 目 由 分 享 ， 一 些 开 源 实 现 已 经 采纳 了 这 些 
EH 

MapReduce 的 创意 和 灵感 来 源 于 函数 式 编 程 。map 和 reduce Z& PIG Zi Ee HP PAJA HH RR 
在 函数 式 编程 中 ，map 函数 对 列表 的 每 个 元 系 执 行 操作 或 水 数 。 例 如 ， 在 列表 [1, 2, 3, 4] 上 执行 
multiple-by-two 函数 会 产生 另 一 个 列表 [2,4, 6, 8]。 执 行 这 些 函 数 时 ， 原 有 列表 不 会 被 修改 。 清 数 
式 编程 认为 应 当 保 持 数 据 不 可 变 , 避免 在 多 个 进程 或 线程 间 共 于 数据 。 这 意味 者 刚 演示 过 的 map 
肖 数 虽然 很 何 单 ， 却 可 以 通过 两 个 或 更 多 线程 在 同一 个 列表 上 同时 执行 ,线程 之 间 互 不 影 啊 ， 
为 列表 本 里 没有 改变 。 

与 map 函数 类 似 ， 国 数 式 编程 中 还 有 一 个 reduce 函数 的 概念 。 实 际 上 , reduce 在 函数 式 编 程 
中 更 广为人知 的 名 字 是 fold KZ- reduce 或 fold PEZ X. ff accumulate, compress 或 者 inject PŽ 
reduce 或 fold 函数 对 数据 结构 ( 例如 列表 ) 中 的 所 有 元 素 执行 一 个 函数 ， 最 终 返回 单个 结 末 或 输 
出 。 因 此 在 map 函数 输出 列表 [2, 4, 6, 8] 上 执行 reduce 求 和 ， 会 得 到 单个 输出 值 20。 

map 和 reduce 困 数 可 以 结合 起 来 处 理 列表 数据 , 移 对 列表 的 每 个 成 员 执行 一 个 为 数 , 再 对 转 
换 生 成 的 列表 执行 另 一 个 聚合 函数 。 

map 和 reduce 这 种 简 清 的 思路 可 以 用 在 大 数据 集 上 ， 只 需 稍 事 修改 以 适应 由 元 组 (tuple ) 或 
键 / 值 对 组 成 的 集合 即 可 。map 也 数 对 集合 中 的 每 组 键 / 值 对 执行 函数 并 产生 一 个 新 集合 ， 接 看 
reduce 呆 数 对 新 生成 的 集合 执行 附 合 以 计算 最 终结 果 。 一 个 例子 胜 过 千言 万 语 ， 下 面 我 通过 一 个 
简单 的 例子 来 解释 整个 过 程 。 假 设 存 在 由 键 / 值 对 组 成 的 集合 : 

[( "94303": "Tom"j, ("94303": "Jane"), ("94301": "Arun"), ("94302": "Chen"]. 

H PREA, (ELE IB 8 E ESTAS ERI EA S feni ES EATE map 函数 可 以 
获取 特定 邮编 范围 内 所 有 居民 的 姓名 ， 则 此 map 函数 输出 如 下 : 

[("94303":["Tom", "Jane"]), ("94301":["Arun"]), ("94302":["Chen"]): 

接着 对 上 面 的 输出 执行 某 reduce 函数 以 计算 特定 邮编 范围 内 居民 的 总 数 ， 最 终 输 出 如 下 ， 

[本 

用 MapReduce 来 进行 这 么 简单 的 数据 处 理 显 得 大 材 小 用 了 ， 但 我 的 目的 是 让 你 理解 概念 和 
过 程 育 后 的 核心 思想 。 

接 下 来 ， 列 举 一 部 分 最 知名 的 NoSQL 产品 ， 然 后 按照 它们 的 功能 和 属性 进行 分 类 。 
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1.2 面向 列 的 有 序 存储 ro 


Google Bigtable 的 数据 存储 模型 支持 面 呵 列 ， 这 与 RDBMS 面 问 行 的 存储 格式 截然 不 同 。 面 
器 列 的 存储 能 高 效 地 存储 数据 ,， 如果 列 值 不 存在 就 不 存储 ,这样 一 来 遇 到 null fELIFEXICBEORE S]. 28 
空间 。 

每 个 数据 单元 可 以 看 作 一 组 键 / 值 对 集合 ， 单 元 本 里 通过 主 标识 和 从 (primary identifier ) 标识 ， 
主 标识 符 又 叫 主键 。Bigtable 和 其 他 类 似 产 品 喜 欢 称 呼 这 个 主键 为 行 键 (row-key )。 男 外 ， 正 如 
本 方 标 题 所 描述 的 那样 ， 单 元 按 顺 序 排列 好 进行 存储 。 数 据 单 元 按 行 键 排序 。 要 想 说 清楚 面 癌 列 
的 有 序 存 储 ， 还 得 举 个 例子 。 假 设 有 一 张 表 存储 与 人 相关 的 信息 。 其 中 包含 以 下 各 列 : Mu 
(first name )、 姓 氏 (last name )、 职 业 (occupation )、 邮 编 (zip code ) 和 性 别 ( gender )。 表 中 
某 人 信息 如 下 : 


first name: John 
last name: Doe 
zip code: 10001 
gender: male 


同一 张 表 里 的 为 一 组 数据 : 


first name: Jane 
zip code: 94303 


第 一 条 数据 的 行 键 为 1， 第 二 条 的 行 键 为 2。 面 癌 列 的 有 序 存储 中 这 两 条 数据 会 这 样 存 储 : 
行 键 1 的 数据 会 存储 在 行 键 2 的 前 面 ， 且 两 条 数据 相互 比邻 。 

此 外 , 每 条 数据 中 只 有 合法 的 键 / 值 对 才 会 被 存储 。 在 类 Bigtable 的 面 癌 列 存储 中 ,数据 按 列 
族 (column-family ) 存储 。 列 族 通 常 是 在 配置 或 局 动 时 定义 好 ， 列 则 不 需要 预 完 定义 或 声明 。 列 
可 以 存储 任何 数据 类 型 ， 前提 是 数据 能 持久 化 成 byte 数组 ,假设 上 面 例子 中 列 族 name 的 成 员 包 括 
列 first name 和 last name, 列 族 location 的 成 员 包 括 列 zip code, 列 族 profile 的 成 员 包 括 列 gender. 

如 此 一 来 ， 上 面 例子 的 底层 存储 由 3 个 存储 桶 组 成 : name、location 和 profile。 每 个 桶 只 会 
保存 合法 的 键 / 值 对 ， 因 此 列 族 name 桶 中 存储 下 列 值 : 


For row-key: 1 
first name: John 
last name: Doe 
For row-key: 2 
first name: Jane 


列 族 location 存储 : 


For row-key: 1 
zip code: 10001 
For row-key: 2 
zip code: 94303 


列 族 profile 只 有 行 键 1 对 应 的 数据 值 ， 则 它 存 储 : 


For row-key: 1 
gender: male 


在 实际 存储 中 ,物理 上 一 条 数据 的 列 族 并 不 相互 隔离 ， 同 一行 键 的 所 有 数据 存储 在 一 起 。 列 
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族 可 以 看 作 代表 成 员 列 的 键 ， 而 行 键 则 是 代表 整 条 数据 的 键 。 

在 Bigtable 和 其 他 类 似 产 品 中 ， 数 据 按 顺序 连 疆 人 存储。 当 数 据 和 逐渐 项 满 一 个 节点 后 ， 它 会 
拆 分 成 多 个 市 点 。 数 据 不 仪 在 每 个 市 点 上 是 有 序 的 , 而且 还 跨越 多 市 点 形成 一 个 更 大 的 有 序 集 。 
数据 持久 化 方面 会 有 容错 的 考虑 ， 每 份 数据 都 同时 维护 3 个 副本 。 大 部 分 类 Bigtable 产品 都 利 
用 分 布 式 文件 系统 将 数据 持久 化 到 磁盘 上 。 分 布 式 文件 系统 文 持 将 数据 存储 到 集群 的 多 全 服务 
fs Ls 

为 有 序 ， 数据 按 行 键 查找 效率 极 高 。 数 据 访问 随机 性 更 小 ， 查 找 也 更 人 简单， 就 是 在 序列 中 
查找 包含 数据 的 市 点 。 数 据 插入 发 生 在 队列 尾部 ,数据 更 新 则 原 地 进行 ， 不 过 一 般 是 添加 数据 的 
一 个 新 版 本 到 指定 单元 (cell) 里 ， 而 非 原 地 徐 写 (in-place overwrite )。 每 个 单元 始终 维护 多 个 
版 本 ,版 本 属性 通常 可 配置 。 

HBase 是 以 Google Bigtable 思想 为 蓝本 创建 的 、 广 受 欢 迎 的 、 开 源 的 有 序列 族 存 储 。 有 关 使 
用 HBase 存储 访 问 数 据 的 细 市 在 本 书 多 个 草 广 中 均 有 介绍 。 

HBase 中 存储 的 数据 可 以 通过 MapReduce 进行 处 理 。Hadoop 的 MapReduce 工具 可 以 很 容易 
地 用 HBase 作为 数据 源 或 数据 接收 方 。 

Bigtable 和 其 他 类 似 产 品 的 技术 规范 细节 包含 在 下 一 草 的 开始 部 分 。Hold 住 你 的 好 奇 心 , 或 
者 现在 就 翻 到 第 4 章 一 探究 葛 。 

接 下 来 ， 我 将 列举 一 些 类 Bigtable 产品 。 

要 了 解 和 利用 Google 基础 设施 的 思想 , 最 佳 方法 是 从 学 习 Hadoop( http://hadoop.apache.org ) 
产品 族 开 始 。NoSQL 的 Bigtable 存储 HBase 正 是 Hadoop 家 族 中 的 一 员 。 

P 面 采 用 要 点 句 形式 列举 一 些 类 Bigtable 开源 产品 及 其 属性 。 

HBase 

口 官方 在 线 资源 。http://hbase.apache.org。 

口 历史 。2007 年 创建 于 Powerset ( 现在 属于 微软 ), 微软 收购 Powerset 前 HBase 被 捐赠 给 了 

Apache 基金 会 。 
口 技术 和 语言 。Java 实现 。 
O 访问 方法 。JRuby 的 shell 支持 命令 行 访问 。 有 Thrift, Avro, REST 和 protobuf 客户 端 。 
对 一 些 编程 语言 提供 文 持 。 发 行 版 本 中 内 置 Java APIS 






























































口 查询 语言 。 无 原生 查询 语言 。 由 Hive ( http://hive.apache.org ) 提供 类 SQL 接口 。 
口 开源 许可 证 。Apache License 版 本 2。 
a 使 用 者 。Facebook、StumbleUpon、Hulu、Ning、Mahalo 、Yahoo! 等 。 
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Thrift 简介 
Thrift 是 一 个 软件 框架 和 一 种 接口 定义 语言 ， 支 持 跨 语言 的 服务 和 API 开发 。 用 Thrift 生 
成 的 服务 能 在 C++、Java、Python、PHP、Ruby、Erlang、Perl、Haskell、C#、Cocoa、Smalltalk 
和 OCaml 之 间 无 颖 地 高 效 互通 。Thrift Æ 2007 年 由 Facebook 创建 ， 它 现在 是 Apache AC S 
项 目 。 关 于 它 的 更 多 信息 请 参阅 : http://incubator.apache.org/thrift/。 





Hypertable 

口 官方 在 线 资源 。www.hypertable.org。 

口 历史 。2007 年 创建 于 Zvents， 现 在 是 独立 开源 项 目 。 

口 技术 和 语言 。C++ 实 现 , 使 用 Google RE2 正则 表达 式 类 库 。RE2 实现 快速 高 效 。Hypertable 
承诺 性 能 高 于 HBase， 有 可 能 市 省 处 理 大 量 数 据 的 时 间 及 成 本 。 

O 访问 方法 。 文 持 命令 行 。 文 持 Thrif 接口。 基于 Thrift 接口 文 持 一 系列 语言 。 充 满 创造 力 
的 开发 者 甚至 为 Hypertable 开发 了 JDBC 兼容 接口 。 

口 查询 语言 。HQL ( Hypertable Query Language, Hypertable 查询 语言 ) 是 一 种 用 于 查询 
Hypertable 数据 的 类 SQL 抽象 。Hypertable 也 有 Hive it ies o 

口 开源 许可 证 。GNU GPL 版 本 2。 

口 使 用 者 。Zvents 、 百 度 〈 中 国 最 大 的 搜索 引擎 ) 和 Rediff ( 印度 最 大 的 门户 网 站 )。 

Cloudata 

口 官方 在 线 资 源 。www.cloudata.org/。 

口 历史 。 由 芋 国 开发 者 YK Kwon 创建 ( www.readwriteweb.com/hack/2011/02/open-source- 
bigtable-cloudata.php )。 没 有 太 多 有 关 其 起 源 的 公开 信息 。 

口 技术 和 语言 。Java 实现 。 

口 访问 方法 。 文 持 命 令 行 。 文 持 Thrift, REST 和 Java API。 

口 查询 语言 。CQL ( Cloudata Query Language, Cloudata 查询 语言 ), 一 种 类 SOL 查询 语言 。 

口 开源 许可 证 。Apache License 版 本 2。 

OQ 使 用 者 。 不 详 。 

有 序列 族 存储 是 非常 流行 的 一 类 NoSQL 不过, NoSQL 还 包含 许多 键 / 值 存 储 和 文档 数据 库 。 

下 面 介 绍 键 / 值 存储 。 


1.3” 键 / 值 存储 


哈 希 表 (HashMap ) 或 关联 数组 ( associative array ) 是 可 以 容纳 键 / 值 对 的 最 简 数 据 结构 。 这 
类 数据 结构 都 是 万 人 迷 ， 因 为 它们 极 高 效 ， 访 问 数据 的 时 间 复 末 度 为 Od). AEX P WEER 
合 中 是 叭 一人， 容 多 查找 ， 便 于 访问 数据 。 

键 / 值 存储 各 不 相同 : 有 的 数据 保存 在 内 存 里 ， 有 的 能 把 数据 持久 化 到 磁盘 里 。 键 / 值 对 可 以 
被 分 散 保 存 到 集群 节点 中 。 
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Oracle 的 Berkeley DB 键 / 值 存储 简单 强大 ， 它 是 纯粹 的 存储 引擎 ， 键 和 值 都 是 字 市 数组 。 其 
核心 存储 引擎 并 不 关注 键 或 全 的 含义 ,只 管 保 存 传人 的 字 贡 数组 对 , 然后 返回 同样 的 数据 给 调用 
Zio Berkeley DB 文 持 将 数据 缓存 在 内 存 中 ， 随 数据 增长 将 其 刷 入 磁盘 。 它 还 文 持 对 键 索 引 ， 
帮助 更 快 地 查找 和 访问 。 Berkeley DB 自 20 世纪 90 年 代 中 期 就 已 存在 ,在 BSD4.3 迁移 到 BSD4.4 
的 过 程 中 ,， 它 被 创建 出 来 其 换 AT&T 的 NDBM。 到 了 1996 ^E, 软件 公司 Sleepycat 成 立 ， 专 门 负 
责 为 Berkeley DB 提供 支持 和 维护 。 

另 一 种 稼 用 的 键 / 信 存储 是 缓存 。 绥 存 提供 应 用 中 使 用 最 多 的 数据 的 内 存 快照 。 绥 存 的 目的 
是 减少 磁盘 1O。 它 可 以 是 最 简单 的 映射 表 ， 也 可 以 是 支持 缓存 过 期 策略 的 健壮 系统 。 作 为 一 种 
流行 策略 ， 绥 存 广 泛 应 用 于 计算 机 软件 栈 所 有 层面 以 提高 性 能 。 操 作 系 统 、 数 据 库 、 中 间 件 和 各 
种 应 用 都 使 用 缓存。 

ff EHCache (http:/ehcache.org/ ) 这 样 健 壮 的 开源 分 布 式 缓存 系统 广泛 应 用 于 各 类 Java 应 用 
中 ， 可 以 将 它 看 作 一 种 NoSQL 方案 。 男 一 种 缓存 系统 Memcached ( http:/memcached.org/ ) 在 
Web 应 用 中 非常 流行 ， 它 是 开源 的 高 性 能 对 象 绥 存 系统 。Memcached 是 2003 年 Brad Fitzpatrick 
为 LiveJournal 开发 的 。 除 了 作为 缓存 系统 ，Memcached 还 帮助 实现 有 效 的 内 存 管 理 ， 它 会 创建 
一 个 大 虚拟 池 ， 然 后 在 节点 间 按 需 分 配 内 存 。 这 种 方式 避 倪 了 伴 片 区 域 的 出 现 ， 即 某 个 节点 有 多 
余 的 空闲 内 存 ， 而 其 他 节点 却 急 缺 内 存 。 

随 着 NoSQL 运动 的 势头 日 益 强 劲 ， 消 现 出 一 批 新 的 键 / 值 对 数据 存储 。 其 中 一 些 构建 在 
Memcached API 上 ， 一 些 用 Berkeley DB 作为 底层 存储 ， 为 一 些 则 提供 全 新 的 蔡 代 方案 。 

这 类 键 / 值 存储 多 包含 API， 文 持 GetSet 机 制 以 便 获取 和 设置 值 ; 少数 ， 如 Redis 
( http://redis.io/ )， 则 提供 更 丰富 的 抽象 和 更 强大 的 API Redis 可 被 视 为 数据 结构 服务 器 ， 因 为 除 
映射 表 以 外 它 还 提供 字符 串 〈 字 符 序 列 )、 列 表 和 集合 等 数据 结构 ， 而 且 它 还 支持 一 套 丰 宦 的 操 
作 来 访问 不 同类 型 数据 结构 的 数据 。 

本 书 涵盖 了 许多 与 键 / 值 存储 有 关 的 细 市 。 下 面 列 出 一 些 重 要 产品 及 其 重要 属性 。 和 针对 一 些 
重要 特性 ， 这 里 再 次 采用 要 点 句 的 列举 方式 。 

Membase ( 拟 并 入 Couchbase， Couchbase 公司 成 立 后 开始 从 CouchDB 中 获得 特性 ) 

口 官方 在 线 资源 。www.membase.org/。 

a 历史 。NorthScale 公司 (后 更 名 为 Membase ) 于 2009 年 启动 该 项 目 。 从 那 时 起 ，Zygna 和 

NHN 为 其 作出 了 重要 贡献 。Membase 基于 Memcached, xF Memcached 的 文本 和 二 进 制 
协议 , 它 在 Memcached 基础 上 增加 了 很 多 新 特性 ,包括 磁盘 持久 化 、 数 据 复制 、 在 线 的 集 
群 重新 配置 和 数据 动态 平衡 。Membase 的 许多 核心 创建 者 也 是 Memcached 的 贡献 者 。 

口 技术 和 语言 。Erlang、C 和 C++ 实现 。 

口 访问 方法 。 扩 展 的 Memcached 3A API, PÆN Memcached. 

口 开源 许可 证 。Apache License 版 本 2。 

口 使 用 者 。Zynga、NHN 等 。 

Kyoto Cabinet 

口 官方 在 线 资源 。http://fallabs.com/kyotocabinet/。 
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口 历史 。Kyoto Cabinet 的 前 身 是 Tokyo Cabinet ( http://fallabs.com/tokyocabinet/ ), Kyoto 
Cabinet 的 数据 库 就 是 包含 记录 的 简单 数据 文件 ,每 条 记录 是 一 对 键 / 值 ， 每 个 键 和 值 都 是 
一 组 变 长 二 进 制 数据 。 

口 技术 和 语言 。C++ 实 现 。 

口 访问 方法 。 提供 C、C++、Java、C#、Python、Ruby、Perl、Erlang、OCaml 和 Lua 的 API, 
由 于 协议 价 单 ， 所 在 存在 非常 多 的 客户 并 。 

O 开源 许可 证 。GNU GPL 和 GNU LGPL, 

口 使 用 者 。Mixi 公司 。 原 作者 离开 Mixi 加 入 Google 前 ，Mixi 公司 赞 助 了 初期 大 部 分 工作 。 

博文 和 邮件 列表 显示 存在 大 量 用 户 ， 但 没有 可 参考 的 公共 列表 。 

Redis 

O 官方 在 线 资源 。http://redis.io/。 

a 历史 。2009 年 Salvatore Sanfilippo 启动 该 项 目 。Salvatore 为 其 初创 公司 LLOOGG 

( http://lloogg.com/ ) 开发 了 Redis。 虽 然 目 前 仍然 是 独立 项 目 ， 不 过 Redis 的 主要 作者 受 
jÆ F VMware, BARI T Redis 的 开发 。 

口 技术 和 语言 。C 实现 。 

口 访问 方法 。 支持 丰富 的 方法 和 操作 。 可 以 通过 Redis 命令 行 接 口 和 一 系列 得 到 良好 维护 的 

客户 端 类 库 进 行 访 问 ， 支 持 语言 包括 Java, Python, Ruby, C, C++, Lua, Haskell, AS3 
等 。 

a 开源 许可 证 。BSD。 

口 使 用 者 。 Craigslist。 

上 面 罗 列 的 3 个 键 / 值 存储 快速 灵活 ， 文 持 存 储 实时 数据 、 短 期 内 频繁 使 用 的 数据 ， 甚 至 还 
支持 数据 完全 地 持久 化 。 

至 今 为 止 列 举 的 键 / 信 存储 都 为 数据 存储 提供 了 强 一 致 性 模型 。 然 而 , 在 分 布 式 环境 中 其 他 
一 些 键 / 值 存储 强调 可 用 性 高 于 一 任性 。 它 们 中 大 部 分 灵感 来 日 Amazon Dynamo, Amamzon 
Dynamo 也 是 键 / 值 存储 ， 它 承诺 时 越 的 可 用 行 和 可 扩展 性 ， 并 成 了 Amazon 分 布 式 容错 和 高 可 
用 性 系统 的 骨干 。Apache Cassandra, Basho Riak 和 Voldemort 是 Amazon Dynamo 想法 的 开源 
实现 。 

Amazon Dynamo 推出 了 大 量 重要 的 高 可 用 性 思想 ， 其 中 最 重要 的 是 最 终 一 任性 (eventual 
consistency )。 最 终 一 致 性 暗示 出 节点 数据 更 新 过 程 中 , 副本 可 能 会 出 现 间歇 的 不 一 致 。 最 终 一 致 
不 是 不 一 致 ， 只 是 与 RDBMS 典型 的 ACID (atomicity, consistency, isolation, 、durabilty， 原 子 性 、 
一 致 性 、 隔 离 性 、 持 久 性 ) 一 致 性 相 比 更 弱 。 












































本 书 涵 盖 了 类 Amazon Dynamo 最 终 一 致 性 数据 存储 模块 的 大 量 细节 ,但 本 
章 不 会 涉及 相关 讨论 ,因为 在 介绍 这 些 内 容 前 需要 先 普及 一 些 背 景 和 技术 基础 。 








下 面 列 出 Amazon Dynamo 的 相似 产品 及 其 部 分 重要 特点 。 
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Cassandra 

口 官方 在 线 资源 。http://cassandra.apache.org/。 

口 历史 。 由 Facebook 开发 ，2008 年 开源 。Apache Cassandra 被 捐赠 给 了 Apache 基金 会 。 

OQ 技术 和 语言 。Java 实现 。 

OQ 访问 方法 。 文 持 命 令 行 访问 。 文 持 Thrift 接口 和 Java API。 存在 多 种 语言 的 客户 问 ， 包 括 
Java, Python, Grails, PHP, .NET 和 Ruby。 支 持 Hadoop 集成 。 

OQ 查询 语言 。 查 询 语言 规范 正在 形成 中 。 

口 开源 许可 证 。Apache License 版 本 2. 

口 使 用 者 。Facebook、Digg、Reddit、Twitter 等 。 

Voldemort 

口 官方 在 线 资源 。http://project-voldemort.com/。 

口 历史 。2008 年 由 LinkedIn 数据 与 分 析 组 创建 。 

口 技术 和 语言 。Java 实现 。 可 插 拔 存储 3 引擎， 文 持 Berkeley DB 和 MySQL 

O 访问 方法 。 集 成 Thrift, Avro 和 protobuf ( http://code.google.com/p/protobuf/ ) 接口 。 可 以 
结合 Hadoop 使 用 。 

口 开源 许可 证 。Apache License 版 本 2. 

口 使 用 者 。LinkedIn。 

Riak 

口 官方 在 线 资源 。http://wiki.basho.com/。 

口 历史 。 创 建 于 Basho， 该 公司 成 立 于 2008 年 。 

O 技术 和 语言 。Erlang 实现 。 为 外 还 使 用 了 一 点 点 C fI JavaScript. 

O 访问 方法 ,支持 基于 HTTP 的 JSON 接口 和 protobuf 客户 并 ,有 Erlang, Java, Ruby , Python , 
PHP 和 JavaScript 类 库 。 

口 开源 许可 证 。Apache License 版 本 2。 

a 使 用 者 。Comcast 和 Mochi Media. 

Cassandra, Riak 和 Voldemort， 所 有 这 三 个 开源 产品 都 提供 了 开源 Amazon Dynamo 的 能 力 。 

Cassandra 和 Riak 的 行为 和 属性 分 别 显现 出 各 目的 双重 性 : Cassandra 同时 拥有 Google Bigtable 
和 Amazon Dynamo 的 属性 ， 而 Riak 既是 键 / 值 存储 又 是 文档 数据 库 。 


1.4 ”文档 数据 库 


文档 数据 库 不 是 文档 管理 系统 。 刚 接触 NoSQL 的 开发 者 滑 会 混 消 文档 数据 库 和 文档 /内 容 管 
理 系统 。 文 档 数据 库 中 的 文档 一 词 意 指 文档 中 松散 结构 的 键 / 值 对 集合 , 通常 是 JSON (JavaScript 
Object Notation, JavaScript 对 象 表示 法 )， 而 非 一 般 意 义 的 文档 或 表格 (尽管 它们 也 能 被 存储 )。 

文档 数据 库 把 文档 当 作 一 个 整体 ， 不 会 将 文档 分 割 成 多 个 键 / 值 对 。 在 集合 层面 上 ， 这 使 得 
不 同 结构 的 文 梢 可 以 放 在 同一 个 集合 里 。 文 档 数 据 库 文 持 文 档案 引 , 不 仅 包 括 主 标识 符 ， 还 包括 
文档 的 属性 。 当 今 为 数 不 多 的 开源 文档 数据 库 中 ， 最 声名 远扬 的 要 数 MongoDB 和 CouchDB。 
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口 官方 在 线 资源 。www.mongodb.org。 

口 历史 。 创 建 于 10gen。 

O 技术 和 语言 。C++ 实 现 。 

O 访问 方法 。 支 持 JavaScript 命令 行 接口 。 支 持 多 语言 驱动 ， 包 括 C、C#、C++、Erlang、 
Haskell, Java, JavaScript, Perl, PHP, Python, Ruby 以 及 Scala; 

口 查询 语言 。 类 SQL 查询 语言 。 

口 开源 许可 证 。GNU Affero GPL ( http://enu.org/licenses/agpl-3.0.html )。 

口 使 用 者 。FourSquare 、Shutterfly、Intuit、Github 等 。 








CouchDB 

口 官方 在 线 资源 ,http://couchdb.apache.org 和 www.couchbase.com。 大 部 分 作者 属于 Couchbase 
公司 
人 Ho 


O 历史 。 始 于 2005 年 ，2008 年 被 纳入 Apache 孵化 需 。 

口 技术 和 语言 。 主 要 用 Erlang 实现 ， 部 分 C CX, JavaScript 执行 环境 。 

Q 访问 方法 。 文 持 REST 高 于 其 他 一 切 机 制 。 可 以 用 标准 Web 工具 和 客户 并 访问 数据 库 ， 
和 访问 Web 资源 的 方法 相同 。 

口 开源 许可 证 。Apache License 版 本 2。 

口 使 用 者 。Apple、BBC、Canonical、Cern 等 , 请 参阅 : http://wiki.apache.org/couchdb/CouchD 
Bin the wild. 

下 一 章 开 始 介绍 文档 数据 库 的 更 多 细节 。 


1.5 图 形 效 据 库 


到 此 为 止 已 经 列 出 了 大 部 分 主流 开源 NoSQL 产 品 。 其 他 产品 ， 比 如 图 形 数据 库 和 XML 数据 
存储 ， 也 可 以 算 作 NoSQL 数 据 库 。 本 书 不 会 介绍 图 形 和 XML 数据 库 ， 不 过 在 这 儿 还 是 列 出 两 种 
图 形 数据 库 : Neo4jfllFlockDB, ， 它 们 可 能 很 有 趣 ， 值 得 了 解 一 下 “"。 
Neo4j 是 一 个 兼容 ACID 的 网 形 数据 库 ， 便 于 快速 届 历 图 形 。 
Neo4j 
口 官方 在 线 资源 。http://neo4j.org。 
口 历史 。2003 年 创建 于 Neo Technologies, ( 没 错 ,这 个 数据 库 在 NoSQL 这 个 词 儿 流行 之 前 
就 已 经 存在 了 。 ) 

OQ 技术 和 语言 。Java 实现 。 

口 访问 方法 。 文 持 命 令 行 接 口 和 REST 接口。 有 多 种 语言 客户 端 , 包括 Java, Python, Ruby, 
Clojure, Scala 和 PHP. 





CD 最 近 出 现 的 一 个 图 形 数据 库 Titan 也 引起 了 一 些 注 意 ， 更 多 细节 请 访问 : http;//thinkaurelius.github.com/titan/.; 
一 一 详 者 注 
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口 查询 语言 。 支 持 SPARQL 协议 和 RDF 查询 语言 。 

口 开源 许可 证 。AGPL。 

a 使 用 者 。Box.net。 

FlockDB 

口 官方 在 线 资源 。https://github.com/twitter/flockdb。 

口 历史 。 创 建 于 Twitter, 2010 年 开源 。 最 初 是 为 了 存储 Twitter 上 粉丝 的 邻接 表 而 设计 的 。 

O 技术 和 语言 。Scala 实现 。 

口 访问 方法 。 支 持 Thrift 和 Ruby 客户 端 。 

口 开源 许可 证 。Apache License 版 本 2. 

口 使 用 者 。 Twitter。 

前 面 已 经 介绍 了 许多 NoSQL 产品 。 和 希望 现在 你 已 经 完成 了 热 届 ,我 们 下 面 要 开始 进一步 学 
习 这 些 产 品 ， 并 了 人 解 如何 有 效 利用 它们 。 








1.6 h 


本 章 首 先 介绍 了 NoSQL 的 概念 、 历 史 和 进一步 学 习 所 需 的 基础 知识 ， 之 后 介绍 了 面向 列 的 
有 序 存 储 、 键 / 值 存储 、 最 终 一 致 性 数据 库 以 及 文档 数据 库 最 基本 的 知识 。 此 外 ， 本 章 还 给 出 了 
一 些 产品 及 其 核心 属性 的 要 点 列表 。 

NoSQL 并 不 能 解决 所 有 问题 ， 而 且 肯 定 存 在 缺点 。 不 过 当 数 据 增 长 到 非常 大 ， 大 到 需要 分 
布 到 许多 集群 节点 上 时 , 大 多 数 产 品 的 扩展 性 都 很 好 。 处 理 大 量 数据 同样 充满 挑战 ， 同 样 需要 新 
的 方法 。 我 们 知道 了 MapReduce 和 它 的 能 力 ， 下 面 章 节 中 将 会 学 习 它 的 使 用 模式 。 

当代 开发 者 是 在 RDBMS 的 陪伴 下 成 长 起 来 的 ， 所 以 采用 NoSQL 既是 采纳 新 技术 ， 也 是 改 
变 行为 习惯 。 这 也 意味 着 作为 开发 者 ， 我 们 需要 首先 学 习 NoSQL， 深入 理解 它 ， 之 后 才能 对 其 
适用 性 作出 目 己 的 判断 。 此 外 ，NoSQL 中 的 许多 理念 非常 适合 解决 大 规模 可 扩展 性 问题 ， 可 用 
于 各 种 类 型 的 应 用 。 

下 一 章 我 们 将 通过 动手 实验 和 概念 性 介绍 来 说 明 面 向 列 存 储 、 键 / 值 存储 和 文档 数据 库 的 结 
构 。 我 会 尽 全 力 提 供 所 有 相关 信息 ， 但 肯定 做 不 到 全 面 覆 盖 。 我 不 会 介绍 每 个 类 别 的 所 有 产品 ， 
只 会 选择 每 种 类 型 的 代表 产品 。 如 果 你 能 将 本 书 从 头 读 到 尾 ， 就 能 在 应 用 程序 栈 里 高 效 利用 
NoSQL。 卷 起 袖子 开始 学 习 吧 ! 祝 你 好 运 ! 
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NoSQL 上 手 初 体验 


本 章 内 容 

口 使 用 NoSQL 技术 

口 探索 MongoDB 和 Apache Cassandra 基础 

口 使 用 流行 高 级 编程 语言 访问 MongoDB 和 Apache Cassandra 


草 是 经 典 Hello World 入 门 的 NoSQL 版 , 介绍 了 一 些 基 本 的 例子 。 这 些 例子 虽说 基础 ， 
但 并 非 在 控制 台 上 打 Fh Hello 消息 那么 简单 ， 而 是 要 让 你 上 手 体 验 NoSQL。NoSQL 是 
对 一 类 数据 存储 的 抽象 ， 是 一 个 概念 、 一 种 分 类 ， 是 全 新 的 数据 存储 观点 。 它 涵盖 了 一 类 产品 和 
一 系列 可 以 相互 蔡 换 的 非 关 系 型 数据 存储 。 在 第 1 章 我 们 熟悉 了 一 些 基本 概念， 知道 了 NoSQL 
的 优 缺 点 ， 从 本 章 开 始 我 们 将 实 成 NoSQL 。 
本 章 的 例子 将 用 到 MongoDB 和 Cassandra, 所 以 你 需要 安装 设置 好 它们 。 如 果 在 开发 环境 中 
"Opp mh mH ， 请 参考 附录 A。 


























为 什么 只 用 MongoDB 和 Apahce Cassandra? 
选择 使 用 MongoDB 和 Cassandra 来 演示 NoSQL 例子 其 实 并 非 刻 意 而 为 。 本 章 的 目的 是 提 
供 NoSQL 这 一 广阔 领域 的 第 一 手 使 用 体验 。 市 面 上 为 数 众 多 的 NoSQL 产品 大 都 提供 引 人 注 
目的 功能 和 优势 ， 要 决定 选择 哪 几 个 产品 可 不 是 件 简单 的 事 。 比 方 说 ， 可 以 选择 Couchbase Ak 
务 器 而 非 MongoDB， 也 可 以 选择 HBase 而 非 Cassandra。 样 例 也 可 以 基于 Redis, Membase, 
Hypertable 或 者 Riak 这 样 的 产品 。 本 书 涵盖 了 许多 NoSQL 数据 库 ， 所 以 只 要 通读 全 书 ， 一定 
会 了 解 NoSQL 领域 的 各 种 替代 方案 。 


2.1 第 一 印象 一 一 两 个 简单 的 例子 


Pit Vi, 进入 正题 , 首先 介绍 两 个 简单 的 例子 ,第 一 个 例子 是 创建 简单 的 位 置 仿 好 数据 库 ， 
第 二 个 例子 是 溃 理 汽车 品牌 和 型 号 数据 库 。 两 个 例子 的 重点 部 在 NoSQL 数据 管理 。 


2.1.1 简单 的 位 置 偏 好 数据 集 
位 置 服务 现在 越 来 越 火 了 , 因为 本 地 企业 都 在 尝试 接触 周边 的 用 户 , 大 公司 则 在 尝试 基于 位 
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置 回 用 户 提 供 个 性 化 在 线 体验 和 产品 推荐 。 在 一 些 知 名 应 用 中 篆 能 见 到 位 置 伍 好 技术 的 身影 ， 比 
如 Google Maps MERZER Walmart.com， 前 者 文 持 本 地 搜索 ， 后 者 根据 距离 用 户 最 近 的 沃 尔 
玛 超市 提供 产品 和 促销 信息 。 

有 了 时 用 户 位 置 是 要 求 用 户 输入 的 ， 有 时 是 推断 出 来 的 。 推 断 可 能 基于 用 户 IP 地 址 、 网 络 接 
入 点 〈 特 别 是 当 用 户 使 用 移动 设备 时 )， 或 这 些 技术 的 各 种 组 合 。 但 是 不 论 如 何 收集 数据 ， 都 需 
要 高 效 地 存储 这 些 数据 ， 我 们 的 第 一 个 例子 就 从 这 儿 展 开 。 

为 了 简单 起 见 , 我 们 只 考虑 美国 用 户 的 位 置 偏好 , 这样 只 需 提 供用 户 标识 符 和 邮编 就 能 找 出 
用 户 的 位 置 。 取 用 户 名 作为 用 户 标 识 符 , 则 要 保存 的 数据 类 似 这 样 :“John Doe, 10001”、“Lee Chang, 
94129", "Jenny Gonzalez 33101", “Srinivas Shastri, 02101", 

在 存储 这 些 数 据 时 , 为 了 保持 灵活 性 和 可 扩展 性 , 我 们 选择 非 关 系 型 数据 库 产 品 MongoDB, 
接 下 来 创建 MongoDB 数据 库 ， 存 储 样 例 位 置 数据 。 

1. 启动 MongoDB 和 存储 数据 

假定 你 已 经 成 功 地 安装 好 MongoDB， 现 在 要 启动 服务 冀 ， 然 后 连 上 它 。 

通过 运行 发 行 版 bin 目录 下 的 mongoa 程序 可 以 启动 MongoDB 服务 入。 针对 不 同 的 环境 ， 
比如 Windows, Mac OS X, 或 者 某 版 Linux，MongoDB 的 版 本 会 有 所 不 同 ， 但 是 所 有 版 本 中 服 
务 需 程序 的 名 宇都 一 样 ， 而 且 都 在 bin 目录 下 。 

连接 MongoDB 服务 融 最 简单 的 办 法 就 是 用 它 自 带 的 JavaScript Shell， 在 命令 行 界面 运行 
mongo 即 可 。Mongo 的 JavaScript Shell 命令 也 在 bin 目录 下 。 

执行 mongod 启动 MongoDB 服务 器 后 ， 会 在 控制 台 里 看 到 类 似 如 下 的 输出 : 


PS C:\applications\mongodb-win32-x86 64-1.8.1» ,\bin\mongod.exe 

C:\applications\mongodb-win32-x86_64-1.8.1\bin\mongod.exe 

--help for help and startup options 

Sun May 01 21:22:56 [initandlisten] MongoDB starting : pid-3300 port-27017 
dbpath-z/data/db/ 64-bit 

Sun May 01 21:22:56 [initandlisten] db version v1.8.1, pdfile version 4.5 

Sun May 01 21:22:56 [initandlisten] git version: 

a4d29cd4f535p2499c604130b5b06ff7c26f£41c00£04 

Sun May 01 21:22:56 [initandlisten] build sys info: windows (6, 1, 7600, 2, '! 
BOOST LIB VERSION-1 42 

Sun May 01 21:22:56 [initandlisten] waiting for connections on port 27017 

Sun May 01 21:22:56 [websvr] web admin interface listening on port 28017 


于 面 的 输出 来 自 Windows 764 f, Windows Powershell 环境 。 受 环境 影响 你 的 输出 可 能 会 有 
所 变化 。 

现在 ,数据库 服务 需 已 经 局 动 运行 起 来 , 用 mongo JavaScript shell 连 上 它 。Shell 最 开始 的 输 
出 应 该 是 这 样 的 : 

PS C: \applications\mongodb-win32-x86_64-1.8.1> bin/mongo 

MongoDB shell version: 1.8.1 

































































connecting to: test 
> 


mongo shell 默认 连接 本 地 的 “test” 数 据 库 。 从 mongoa ( 服务 需 守 护 程序 ) 的 控制 台 输 出 中 ， 
可 以 猜 到 MongoDB 服务 需 在 端口 27017 上 等 待 连接。 要 了 解 初 始 可 用 的 命令 ， 只 需 输 入 help 
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按 下 回 车 (或 返回 )， 就 会 看 到 下 面 这 样 的 命令 选项 列表 : 





> help 

dob.help() help on db methods 

db.mycoll.help() help on collection methods 

rs.help(í) help on replica set methods 

help connect connecting to a db help 

help admin administrative help 

help misc misc things to know 

help mr mapreduce help 

show dbs show database names 

show collections show collections in current database 

show users show users in current database 

show profile show most recent system.profile entries 
with time >= lms 

use «db name» set current database 

db.foo.find() list objects in collection foo 

db.foo.find( ( a s 1 }) list objects in foo where a -- 

it result of the last line evaluated; 


use to further iterate 
DBQuery.shellBatchS8ize = x set default number of items to display 
on shell 
exit quit the mongo shell 


自 定义 MongoDB 数据 目录 和 端口 号 
MongoDB 默认 在 目录 /data/db ( Windows 上 是 C: NdataNdb ) 下 存储 数据 文件 ， 在 端口 
27017 上 监听 请 求 。 使 用 dbpath 选项 可 以 指定 一 个 不 同 的 数据 目录 : 
mongod --dbpath  /path/to/alternative/directory 
如 果 数 据 目 录 不 存在 ， 要 先 创建 好 ， 还 要 确保 mongod 拥有 该 目录 的 写 权 限 。 
此 外 ,使 用 port 选项 可 以 指定 不 同 的 连接 端口 号 : 
mongod --port 94301 
为 避免 冲突 ， 应 首先 确认 该 端口 号 无 人 使 用 。 
要 同时 修改 数据 目录 和 端口 号 ， 同 时 指定 --dbpath fe--port 选项 即 可 。 





下 面 学 习 如 何在 MongoDB 中 创建 偏好 数据 库 。 

2. 创建 仿 好 数据 库 

第 一 步 先 创建 偏好 数据 库 prefs， 然 后 是 库 中 名 为 location 的 集合 ， 最 后 在 该 集合 中 按 
用 户 名 加 邮编 的 元 组 (或 对 ) 结构 存储 数据 。 按 照 MongoDB 的 说 法 就 是 执行 下 列 步 又 。 

(1) 切换 到 prefs 数据 库 。 

(2) 定义 要 存储 的 数据 集 。 

(3) 将 定义 好 的 数据 集 保 存 到 集合 中 ， 集 合 名 为 location. 

要 执行 这 些 步 又 ， 在 Mongo JavaScript 控制 台中 键入 : 
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use prefs 


w = (name: "John Doe", zip: 10001}; 
x = (name: "Lee Chang", zip: 94129]; 
y = (name: "Jenny Gonzalez", zip: 33101}; 


Z {name: “Srinivas Shastri", zip: 02101); 


db.location.save(w); 
db.location.save(x); 
db.location.save(y); 
db.location.save(íz); 


搞定 ! 只 需 简 单 几 步 ， 数 据 存储 就 准备 妥当 了 。 提 醒 几 点 ，use prefs 命令 将 当前 数据 库 
改变 为 prefs AJE, 但 是 数据 库 本 号 一 直 都 没有 显 式 地 创建 过 。 同 样 ， 通 过 传递 每 条 数据 给 
db.location.save() 方 法 将 数据 存 人 location 集合 ,但 是 集合 也 没有 显 式 地 创建 过 。 TE 
MongoDB 中 ， 数 据 库 和 集合 都 是 在 插入 数据 时 才 创 建 。 因 此 ， 在 这 个 例子 里 ,创建 是 发 生 在 插 
人 第 一 条 数据 {name: "John Doe", zip: 10001} 时 。 

下 面 查询 新 建 数据 库 来 验证 存储 内 容 。 要 获得 location 集合 中 的 所 有 记录 ， 可 以 执行 
db.locatron.tind()s 

在 我 的 机 备 上 执行 ab.location.finad() 会 显示 下 列 输出 : 


> db.location.find() 











( " aid" : Objectrid("4c97053abe67000000003857"), "name" : "John Doe", 
"zip" : 10001 j 

{ " id" : ObjectId("4c970541be67000000003858"), "name" : "Lee Chang", 
"zip" : 94129 } 

( " id" : ObjectIid("4c970548be67000000003859"), "name" : "Jenny Gonzalez", 
"zip" : 33101 } 

( "_id" : Objectid("4c970555be6700000000385a"), "name" : "Srinivas Shastri", 


"zip" : 1089 ) 
你 的 输出 应 该 非常 接近 ， 唯 一 可 能 不 同 的 地 方 是 Objectid.Objectrid, 在 MongoDB F'€ 
用 来 唯一 标识 每 条 记录 或 每 个 文档 。 




















A MongoDB 使 用 Objectrid 来 唯一 标识 集合 中 的 每 个 文档 。 文 档 的 
ObjectId 存储 在 其 id 属性 里 。 插 入 记录 时 ， 任 何 唯一 值 都 可 以 成 为 
ObjectId， 其 唯一 性 由 开发 者 保障 。 插 入 记录 时 也 可 以 不 提供 _ ia 属性 值 。 
这 种 情况 下 ，MongoDB 会 创建 并 插入 一 个 适当 的 唯一 的 标识 符 。MongoDB 生 
成 的 标识 符 是 BSON 格式 ， 即 二 进 制 JSON 格式 ， 格 式 概述 如 下 。 

口 BSON ObjectId 是 一 个 12 字 节 的 值 。 

口 前 4 字 节 是 创建 时 间 ， 表 示 自 纪元 以 来 的 秒 数 。 这 个 值 必 须 用 大 端 
( Big endian ) 模式 存储 ， 即 最 高 数位 的 值 存 储 在 最 低 的 存储 地 址 上 。 

O 接 下 来 3 字 节 表示 机 器 标识 符 。 

O 跟着 2 字 节 表示 进程 标识 符 。 

口 最 后 3 字 节 表示 计数 器 ， 这 个 值 也 必须 以 大 端 存储 。 

O BSON 格式 除了 保证 唯一 性 以 外 ， 还 包含 了 创建 时 间 。 所 有 标准 的 
MongoDB 驱动 都 支持 BSON 格式 标识 符 。 
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调用 find 方法 如 果 不 带 参数 则 返回 集合 中 的 所 有 元 系 , 但 是 某 些 情况 下 可 能 只 需要 集合 的 
音 分 子 集 。 为 便于 了 解 都 能 执行 哪些 查询 ， 移 在 location 集合 中 加 入 下 列 记录 : 


口 Don Joe, 10001 2 
L] John Doe, 94129 


可 通过 mongo shell 完成 插入 ， 如 下 所 示 : 


a = (name:"Don Joe", zip:10001); 
"name" : "Don Joe", "zip" : 10001 } 
b = [íname:"John Doe", zip:94129); 
"name" : "John Doe", "zip" : 94129 } 


db.location.save(ía); 
db.location.save(b); 


VOV MV mS N mS y 


要 获得 邮编 10001 的 所 有 用 户 名 列表 ， 可 以 这 样 查询 : 


= db. location, Cind({zip: 10001}); 


( " id" : Objectid("4c97053abe67000000003857"), "name" : "John Doe", 
"zip" : 10001 } 
{ "_id" : ObgjectId("4c97a6555c760000000054d8"j), "name" : "Don Joe", 


"zip" : 10001 } 
要 获得 名 字 是 “John Doe” 的 所 有 记录 列表 ， 可 以 这 样 查询 : 


> db.location.find(íname: "John Doe")]); 


( " id" : ObijectId("4c97053abe67000000003857"), "name" : "John Doe", 
"zip" : 10001 } 
( " id" : ObjectId("4c97a7ef5c760000000054da"), "name" : "John Doe", 


"zip" : 94129 } 

在 这 两 个 过 滤 集 合 的 查询 中 ,查询 文档 作为 参数 被 传递 给 find 方法 ， 其 中 指定 了 键 和 值 要 
匹配 的 模式 。 除 了 这 些 简 单 的 过 滤 条 件 外 ，MongoDB 还 支持 许多 高 级 查询 机 制 ， 包 括 借 助 了 正 
则 表达 式 的 模式 。 

只 要 是 数据 库 就 总 会 迎 来 新 数据 , 所 以 集合 结构 就 有 可 能 逐渐 变 成 约束 ， 进 而 需要 修改 。 在 
传统 的 关系 型 数据 库 中 , 就 可 能 需要 修改 表 绪 构 。 修 改 表 绪 构 意 味 肴 执行 复杂 的 数据 迁移 任务 以 
确保 新 老 结 构 的 数据 可 以 共存 。 在 MongoDB 中 ， 修 改 集合 结构 是 小 某 一 夸 。 更 准确 地 说 ， 集 合 
( 类似 于 表 ) 是 弱 结 构 的 ， 所 以 在 同一 个 集合 中 允许 存储 不 同 的 文档 类 型 。 

举 个 例子 , 假设 现在 又 要 存储 另 一 个 用 户 的 位 置 俩 好 , 其 姓名 和 邮编 与 数据 库 中 一 个 已 经 存 
在 的 文档 完全 相同 ， 比 如 说 fname: "Lee Chang", zip: 94129}。 当 然 ， 这 是 故意 的 ， 我 们 假 
设 姓名 和 邮编 对 应 该 唯一 。 

为 了 区 分 第 二 个 Lee Chang 和 数据 库 中 已 存在 的 那个 ， 可 以 汐 加 一 个 额外 属性 ， 即 街道 
地 址 : 
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> anotherLee = í(name:"Lee Chang", zip: 94129, streetAddress:"37000 Graham Street"); 
1 


"name" : "Lee Chang", 
"zip" : 94129, 
"streetAddress" : "37000 Graham Street" 


) 


> db.location.save(anotherLee); 


现在 再 用 fina 获取 所 有 文档 ， 返 回 如 下 数据 集 : 


> db.location.find(); 


( " id" : ObgectId("4c97053abe67000000003857"), "name" : "John Doe", 
"zip" : 10001 } 

( " id" : ObjectId("4c970541be67000000003858"), "name" : "Lee Chang", 

"zip" : 94129 ) 

( " 1d" : ObgjectId("4c970548be67000000003859"), "name" : "Jenny Gonzalez", 
"zip" e 33101 j 

( " id" : ObjectId("4c970555be6700000000385a"), "name" : "Srinivas Shastri", 
"zip"” s 1089 ) 

t * 1d" « ObTeetid("409786555e760000000054408"), "name" : "Don Joe", 
"zip" : 10001 } 

( "_id" : ObjectId("4c97a7ef5c760000000054da"), "name" : "John Doe", 
"elp" : 94129 } 

( " id" : Obgjectid("4c97add25c760000000054db"), "name" : "Lee Chang", 


"zip" : 94129, "streetAddress" : "37000 Graham Street" ) 
通过 各 种 主流 编程 声言 可 以 访问 数据 ， 因 为 各 种 驱动 都 存在 。 本 章 稍 后 的 2.2 mus Y 
话题 。 在 2.2 市 的 部 分 内 容 中 ， 将 使 用 Java, PHP, Ruby 和 Python 访问 位 置 偏 好 数据 。 
在 接 下 来 的 例子 里 ， 将 使 用 非 关 系 型 列 族 数据 库存 储 汽 车 品牌 和 型 号 数据 。 


2.1.2 ”存储 汽车 品牌 和 型 号 数据 


本 例 中 使 用 分 布 式 列 族 数据 库 Apache Cassandra。 因 此 ， 在 继续 深入 人 研究 本 例 之 前 应 先 安装 
好 Cassandra。 如 果 在 安装 和 设置 Cassandra 时 需要 帮助 ， 请 参阅 附录 A. 

Apache Cassandra 是 分 布 式 数据 库 ， 所 以 使 用 时 通常 会 建立 数据 库 集 群 。 在 这 个 例子 中 ， 设 
置 Cassandra 作为 单个 节点 运行 能 避免 集群 设置 的 复杂 性 。 生 产 环 境 则 不 会 这 样 配置 ， 但 对 投石 
问 路 和 了 人 解 基 础 知识 来 说 ,单个 节点 足 锋 。 

Cassandra 数据 库 可 以 通过 单个 命令 行 客 户 端 或 者 Thrift 接口 访问 。Thrift 接口 支持 多 种 编程 
语言 。 从 功能 角度 讲 ， 可 以 把 Thrift 接口 当 作 通用 的 多 语言 数据 库 驱 动 。 关 于 Thrift 的 内 容 会 在 
稍 后 的 2.2 证 继续 讨论 。 

要 继续 学 习 汽 车 品牌 和 型 亏 数 据 库 ， 首 先 应 局 动 Cassandra 并 连接 它 。 

1. 启动 与 连接 Cassandra 

Cassandra / 43 lU Ai (tar 打包，gzip 压缩 ) 解压 后 的 目录 里 有 个 文件 bin/cassandra,， 
调用 这 个 文件 可 以 启动 Cassandra Hitt 28. i851] bin/Cassandra-£f 启动 一 个 本 地 Cassandra T 
点 ， 参 数 -f 让 Cassandra 在 前 台 运 行 。 如 有 果 运 行 Cassandra 集群， 则 会 启动 多 市 点 ， 而 且 市 点 间 
可 以 相互 通信 。 在 这 个 例子 中 ， 滨 示 如 何 使 用 Cassandra 存储 和 访问 数据 ， 用 一 个 节点 就 够 了 。 
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启动 Cassandra 市 点 后 ， 应 该 会 看 到 如 下 输出 : 


PS C:\applications\apache-cassandra-0.7.4> .\bin\cassandra -f 
Starting Cassandra Server 

INFO 18:20:02,091 Logging initialized 

INFO 18:20:02,107 Heap size: 1070399488/1070399488 

INFO 18:20:02,107 JNA not found. Native methods will be disabled. 
INFO 18:20:02,107 Loading settings from file:/C:/applications/ 

apache-cassandra-0.7.4/conf/cassandra.yaml 

INFO 18:20:02,200 DiskAccessMode 'auto' determined to be standard, 
indexAccessMode is standard 
INFO 18:20:02,294 Deleted NvarMlibNcassandraNMdataNsystem 





iNLocationinfo-f-3 

INFO 18:20:02,294 Deleted *MvarMlibNMcassandraNMdataNsystemNLocationinfo-f-2 

INFO 18:20:02,294 Deleted NvarMlibNcassandraNdataNsystemMNLocationInfo-f-1 

INFO 18:20:02,310 Deleted WNvarMlibNcassandraNdataNsystemNLocationInfo-f-4 

INFO 18:20:02,341 Opening NvarMlibNcassandraNdataNsystemMLocationInfo-f-5 

INFO 18:20:02,388 Couldn't detect any schema definitions in local storage. 

INFO 18:20:02,388 Found table data in data directories. Consider using JMX to call 
org.apache.cassandra.service.StorageService.loadSchemaFromYam 

Lt. 

INFO 18:20:02,403 Creating new commitlog segment /var/lib/cassandra/commitlogN 
CommitLog-1301793602403.10og 

INFO 18:20:02,403 Replaying NvarMlibNMcassandraNcommitlog^ 
CommitLog-1301793576882.10g 

INFO 18:20:02,403 Finished reading \var\lib\cassandra\commitlog\ 

CommitLog-1301793576882.10og 

INFO 18:20:02,419 Log replay complete 

INFO 18:20:02,434 Cassandra version: 0.7.4 

INFO 18:20:02,434 Thrift API version: 19.4.0 

INFO 18:20:02,434 Loading persisted ring state 

INFO 18:20:02,434 Starting up server gossip 

INFO 18:20:02,450 Enqueuing flush of Memtable-LocationInfo833000296(29 bytes, 
1 operations) 

INFO 18:20:02,450 Writing Memtable-LocationInfo833000296(29 bytes, 1 operations) 

INFO 18:20:02,622 Completed flushing \var\lib\cassandra\data\system\ 

LocationInfo-f-6-Data.db (80 bytes) 

INFO 18:20:02,653 Using saved token 63595432991552520182800882743159853717 

INFO 18:20:02,653 Enqueuing flush of Memtable-LocationInfo822518320(53 bytes, 
A operations) 

INFO 18:20:02,653 Writing Memtable-LocationInfo822518320(53 bytes, 2 operations) 

INFO 18:20:02,824 Completed flushing \var\lib\cassandra\data\system\ 
Locationinfo-f-7-Data.db (163 bytes) 

INFO 18:20:02,824 Will not load MX4J, mx4j-tools.jar is not in the classpath 

INFO 18:20:02,871 Binding thrift service to localhost/127.0.0.1:9160 

INFO 18:20:02,871 Using TFastFramedTransport with a max frame size of 

15728640 bytes. 

INFO 18:20:02,871 Listening for thrift clients... 


上 上 面 的 输出 是 从 我 的 Windows 7 64 f, Windows Powershell 中 得 到 的 。 如 果 使 用 不 同 的 操作 
系统 和 shell， 输 出 可 能 会 有 所 不 同 。 
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Apache Cassandra 节点 基本 配置 


Apache Cassandra 存储 配置 定义 在 文件 conf/Cassandra.yaml 中 。Cassandra 稳定 版 或 开 
发 版 的 tar.gz 格式 压缩 包 中 的 cassandra.yaml 文件 包 念 一些 默认 配置 , 例如, 提交 日 志 放 在 
/var/lib/Cassandra/commitlog 目录 中 ,数据 文件 放 在 /var/1ib/Cassandra/data 目录 中 。 
Apache Cassandra 使 用 log4j 记录 日 志 。Cassandra log4j 通过 文件 conf/log4j-server. 
properties 配置 。 上 默认 情况 下 ，Cassandra log4j 将 日 志 输 出 写 到 /var/log/Cassandra/ 
system.log 中 。 如 果 想 保留 默认 配置 ， 请 确保 以 上 目录 存在 并 且 具 备 读 写 权 限 。 如 果 想 修改 
配置 ， 请 确保 在 对 应 日 志文 件 中 指定 新 文件 夹 。 

我 的 提交 日 志和 数据 目录 属性 分 别 是 : 

a ObasexennenesLexs) Voan oo nr nou or adoro on kk do ful obe Che Te LIS a 

- /var/lib/cassandra/data 


# commit log 
commitlog directory: /var/lib/cassandra/commitlog 


cassandra.yaml 中 的 路 径 不 必 是 Windows 格式 。 例 如， 不 需要 指定 提交 日 志 路 径 为 
commitlog directory:C:\var\lipb\cassandra\commitlog。 我 的 conf/log4j-server. 


properties 里 log4j appender 的 文件 配置 如 下 : 


log4j.appender.R.File-/var/log/cassandra/system.log 








连接 运行 中 的 Cassandra 节点 的 最 简单 办 法 是 使 用 Cassandra CLI ( Command-Line Interface, fi 
令 行 接口 ) 只 需要 运行 bin/Cassandra-cli 就 可 以 局 动 命 令 行 , 可 以 指定 主机 地 址 和 端口 号 如 下 : 
bin/cassandra-cli -host localhost -port 9160 


运行 cassandra-cli 输出 如 下 : 


PS C:\applications\apache-cassandra-0.7.4> .\bin\cassandra-cli -host localhost 
-port 9160 

Starting Cassandra Client 

Connected to: "Test Cluster" on localhost/9160 

Welcome to cassandra CLI. 


Type 'help;' or '?' for help. Type 'quit;' or 'exit;' to quit. 
[defaultQunknown] 


输入 help 或 ?得 到 命令 列表 : 


[defaultGunknown] ? 
List of all CLI commands: 


? Display this message. 
help; Display this help. 
help «command»; Display detailed, command-specific help. 
connect «hostname»/«port» («username» '«password»')?; Connect to thrift service. 
use «keyspace» [«username» 'password']; Switch to a keyspace. 
describe keyspace («keyspacename»)?; Describe keyspace. 
exit; Exit CLI. 
quit; Exit CLI. 
describe cluster; Display information about cluster. 
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show cluster name; Display cluster name. 
show keyspaces; Show list of keyspaces. 
show api version; Show server API version. 


create keyspace «keyspace» [with «attil»-«valuel» [and «att2»-«value2» ...]]; 
Add a new keyspace with the specified attributeí(s) and value(s). 

update keyspace «keyspace» [with «attl»-«valuel» [and «att2»-«value2» ...]]; 
Update a keyspace with the specified attribute(í(s) and value(s). 
create column family «cf» [with «attl»-«valuel» [and «att2»-«value2» ...]]; 
Create a new column family with the specified attributeí(s) and value(ís). 
update column family «cf» [with «atti»-«valuel» [and «att2»-«value2» ...]]; 


Bad 


Update a column family with the specified attribute(s) and value(s). 






































drop keyspace «keyspace»; Delete a keyspace. 
drop column family «cf»; Delete a column family. 
get «cf»['«key']; Get a slice of columns. 
get «cf»['«key»']['«super-»']; Get a slice of sub columns. 
get «cf» where «column» - «value» [and «column» » «value» and ...] [limit int]; 
get «cf»['«key»']['«col»'] (as «type»)*; Get a column value. 
get «cf»['«key»']['«super»']['«col»'] (as «type»)*; Get a sub column value. 
set «ctf9['«kev»']['«ecóol»'] = «value» (with ttl  «seos»)*; Set a column. 
Set «cf»['«key»']['«super»']['«col»'] = «vailiue» (with ttl = «secs»)* 

Set a sub column. 
del «cf»['«key»']; Delete record. 
del «c£»['«key»']['«col»']; Delete column. 
del «cf»['«key»']['«super»']['«col»?']; Delete sub column. 
count «cf»['«key»']; Count columns in record. 
count «cf»['«key»']['«super-']; Count columns in a super column. 
truncate «column family»; Truncate specified column family. 


assume «column family» «attribute» as «type»; 

Assume a given column family attributes to match a specified type. 
list «cf»; List all rows in the column familv. 
list «cf»[«startKey»:]: 

List rows in the column family beginning with «startKey». 
list «cf»[«startKey»:«endKey-»]; 

List rows in the column family in the range from «startKey» to «endKey». 
list 2o. limit N; Limit the list results to N. 


AZK [ Cassandra 的 基础 知识 之 后 ， 下 面 我 们 为 汽车 品牌 和 型 号 数据 创建 存储 定义 ， 然 后 使 
用 新 定义 好 的 Cassandra 存储 结构 插入 和 旋 取 数据 。 

2. 使 用 Cassandra 存储 和 访问 数据 

首先 要 了 解 键 空间 和 列 族 的 概念 。 关 系 型 数据 库 中 最 近似 键 空间 和 列 族 的 概念 是 数据 库 和 
表 。 虽 然 这 些 定 义 不 完 全 准确 ， 而 且 有 时 可 能 引起 误解 ， 但 是 它们 有 助 于 理解 如 何 使 用 键 空间 
和 列 族 。 在 熟悉 过 基本 使 用 模式 以 后 ， 就 会 更 好 地 理解 这 些 概念 ， 它 们 已 经 超越 了 对 等 的 关系 
型 概念 。 

下 面 先 列 出 Cassandra 服 务 硕 中 已 经 存在 的 键 空间 。 打 开 cassandra-cli, 键 人 show keyspaces 
命令 ， 然 后 按 回 车 。 因 为 使 用 了 全 新 安装 的 Cassandra， 输 出 类 似 这 样 : 


[defaultGaàunknown] show keyspaces; 
Keyspace: system: 
Replication Strategy: org.apache.cassandra.locator.LocalStrategy 
Replication Factor: 1 
Column Families: 
ColumnFamily: HintsColumnFamily (Super) 
"hinted handoff data" 
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Columns sorted by: org.apache.cassandra.db.marshal.BytesType/ 
org.apache.cassandra.db.marshal.BytesType 
Row cache size / save period: 0.0/0 
Key cache size / save period: 0.01/14400 
Memtable thresholds: 0.15/32/1440 
GC grace seconds: 0 
Compaction min/max thresholds: 4/32 
Read repair chance: 0.0 
Built indexes: [] 
ColumnFamily: IndexInfo 
"indexes that have been completed" 
Columns sorted by: org.apache.cassandra.db.marshal.UTF8Type 
Row cache size / save period: 0.0/0 
Key cache size / save period: 0.01/14400 
Memtable thresholds: 0.0375/8/1440 
GC grace seconds: O0 
Compaction min/max thresholds: 4/32 
Read repair chance: 0.0 
Built indexes: [] 
ColumnFamily: LocationInfo 
"persistent metadata for the local node" 
Columns sorted by: org.apache.cassandra.db.marshal.BytesType 
Row cache size / save period: 0.0/0 
Key cache size / save period: 0.01/14400 
Memtable thresholds: 0.0375/8/1440 
GC grace seconds: O0 
Compaction min/max thresholds: 4/32 
Read repair chance: 0.0 
Built indexes: [] 
ColumnFamily: Migrations 
"individual schema mutations" 
Columns sorted by: org.apache.cassandra.db.marshal.TimeUUIDType 
Row cache size / save period: 0.0/0 
Key cache size / save period: 0.01/14400 
Memtable thresholds: 0.0375/8/1440 
GC grace seconds: 0 
Compaction min/max thresholds: 4/32 
Read repair chance: 0.0 
Built indexes: [] 
ColumnFamily: Schema 
"current state of the schema" 
Columns sorted by: org.apache.cassandra.db.marshal.UTFS8Type 
Row cache size / save period: 0.0/0 
Key cache size / save period: 0.01/14400 
Memtable thresholds: 0.0375/8/1440 
GC grace seconds: 0 
Compaction min/max thresholds: 4/32 
Read repair chance: 0.0 
Built indexes: [] 


系统 键 空间 ,顾名思义 ,就 像 RDBMS 里 的 管理 数据 库 。 系 统 键 空 间 包 括 了 一 些 预 定义 好 的 列 
族 ， 后 面 小 节 中 会 通过 例子 介绍 列 族 的 知识 。 键 空间 将 列 族 组 织 到 一 起 。 通 常 来 说 ， 每 个 应 用 程 
序 里 定义 一 个 键 空间 。 数 据 复制 定义 在 键 空间 层面 上 ， 即 在 键 空间 一 级 声明 数据 副本 的 数量 和 存 
储 方式 。Cassandra 发 行 版 中 目 带 一 个 示例 键 空间 创建 脚本 ,在 conf 目 录 下 的 schema-sample.txt 
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文件 中 。 运 行 示 例 键 空间 创建 脚本 如 下 : 


PS C:\applications\apache-cassandra-0.7.4> .\bin\cassandra-cli -host localhost 
--file .Ncon£Mschema-sample.txt 
我 们 再 次 通过 命令 行 客 户 端 连 接 ， 在 命令 行 中 重 发 show keyspaces 命令 ， 这 次 输出 应 该 
会 像 这 样 : 
[defaultQunknown] show keyspaces; 
Keyspace: Keyspacel: 
Replication Strategy: org.apache.cassandra.locator.SimpleStrategy 
Replication Factor: 1 
Column Families: 
ColumnFamily: Indexed1 
Columns sorted by: org.apache.cassandra.db.marshal.BytesType 
Row cache size / save period: 0.0/0 
Key cache size / save period: 200000.0/14400 
Memtable thresholds: 0.2953125/63/1440 
GC grace seconds: 864000 
Compaction min/max thresholds: 4/32 
Read repair chance: 1.0 
Built indexes: [Indexedl.birthdate. idx] 
Column Metadata: 
Column Name: birthdate (626972746864617465) 
Validation Class: org.apache.cassandra.db.marshal.LongType 
Index Name: birthdate, idx 
Index Type: KEYS 
ColumnFamily: Standardi 
Columns sorted by: org.apache.cassandra.db.marshal.BytesType 








Row cache size / save period: 1000.0/0 
Key cache size / save period: 10000.0/3600 
Memtable thresholds: 0.29/255/59 
GC grace seconds: 8604000 
Compaction min/max thresholds: 4/32 
Read repair chance: 1.0 
Built indexes: [] 
ColumnFamily: Standard2 
Columns sorted by: org.apache.cassandra.db.marshal.UTF8Type 
Row cache size / save period: 0.0/0 
Key cache size / save period: 100.0/14400 
Memtable thresholds: 0.2953125/63/1440 
GC grace seconds: 0 
Compaction min/max thresholds: 5/31 
Read repair chance: 0.0010 
Built indexes: [] 
ColumnFamily: StandardByUUID1 
Columns sorted by: org.apache.cassandra.db.marshal.TimeUUIDType 
Row cache size / save period: 0.0/0 
Key cache size / save period: 200000.0/14400 
Memtable thresholds: 0.2953125/63/1440 
GC grace seconds: 864000 
Compaction min/max thresholds: 4/32 
Read repair chance: 1.0 
Built indexes: [] 
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ColumnFamily: Superl (Super) 

Columns sorted by: org.apache.cassandra.db.marshal.BytesType/ 
org.apache.cassandra.db.marshal.BytesType 

Row cache size / save period: 0.0/0 

Key cache size / save period: 200000.0/14400 

Memtable thresholds: 0.2953125/063/1440 

GC grace seconds: 864000 

Compaction min/max thresholds: 4/32 

Read repair chance: 1.0 

Built indexes: [] 
ColumnFamily: Super2 (Super) 
"A column family with supercolumns, whose column and subcolumn names are 
UTF8 strings" 

Columns sorted by: org.apache.cassandra.db.marshal.BytesType/ 
org.apache.cassandra.db.marshal.UTF8Type 

Row cache size / save period: 10000.0/0 

Key cache size / save period: 50.0/14400 

Memtable thresholds: 0.2953125/063/1440 

GC grace seconds: 864000 

Compaction min/max thresholds: 4/32 

Read repair chance: 1.0 

Built indexes: [] 
ColumnFamily: Super3 (Super) 
"A column family with supercolumns, whose column names are Longs (8 bytes)" 

Columns sorted by: org.apache.cassandra.db.marshal.LongType/ 
org.apache.cassandra.db.marshal.BytesType 

Row cache size / save period: 0.0/0 

Key cache size / save period: 200000.0/14400 

Memtable thresholds: 0.2953125/063/1440 


GC grace seconds: 864000 
Compaction min/max thresholds: 4/32 
Read repair chance: 1.0 
Built indexes: [] 
Keyspace: system: 
...(Information on the system keyspace is not included here as it's 
the same as what you have seen earlier in this section) 


接 下 来 ， 创 建 CarDataStore 键 空 间 ， 然 后 使 用 代码 清单 2-1 中 的 脚本 在 其 中 创建 Cars 列 族 。 
D 代码 清单 2-1 CarDataStore 键 空 间 的 定义 脚本 


/*schema-cardatastore.txt*/ 





create keyspace CarDataStore 
with replication factor - 1 
and placement strategy = 'org.apache.cassandra.locator.SimpleStrategy'; 


use CarDataStore; 


create column family Cars 
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with comparator = UTF8Type 
and read repair chance = 0.1 
and keys cached = 100 

and gc grace = 0 

and min compaction threshold - 5 
and max compaction threshold 


II 
G3 
| mend 


schema-cardatastore.txt 


执行 代码 清单 2-1 的 脚本 如 下 : 


PS C: \applications\apache-cassandra-0.7.4> bin/cassandra-cli -host localhost 
--file C: NworkspaceMnosqlNexamplesMXschema-cardatastore.txt 


添加 键 空 间 成 功 ! 现在 和 价 要 回顾 一 下 如 何 添加 键 空 间 。 首 先 添 加 名 为 CarDataStore 的 键 空 
H, 然后 在 此 键 空 间 中 添加 一 个 ColumnFamily, 名 字 叫 Cars。 过 会 儿 还 会 看 到 ColumnFamily, 
现在 暂且 把 它们 看 作 表 。 在 ColumnFamiiy 中 还 包括 一 个 叫做 comparewith 的 属性 ， 值 为 
UTF8Type， 它 将 影 啊 行 键 的 索引 和 排序 方式 。 键 空间 里 的 其 他 部 分 用 来 声明 复制 选项 。 
CarDataStore 的 复制 因子 值 为 1， 即 Cassandra 中 只 存储 一 个 数据 副本 。 

接 下 来 , 添加 一 些 数 据 到 CarDataStore 键 空 间 中 , 如 下 所 示 : 


[defaultQGunknown] use CarDataStore; 
Authenticated to keyspace: CarDataStore 














[defaultaCarDataStore] set Cars['Prius']['make'] = 'toyota'; 
Value inserted. 

[defaultàCarDataStore] set Cars['Prius']['model'] = 'prius 3'; 
Value inserted. 

[default8àCarDataStore] set Cars['Corolla']['make'] = 'toyota'; 
Value inserted. 

[defaultQCarDataStore] set Cars['Corolla']['model'] = 'le'; 
Value inserted. 

[default8CarDataStore] set Cars['fit']['make'] = 'honda'; 
Value inserted. 

[defaultQCarDataStore] set Cars['fit']['model'] = 'fit sport'; 
Value inserted. 

[defaultaàCarDataStore] set Cars['focus']['make'] = 'ford'; 
Value inserted. 

[default8CarDataStore] set Cars['focus']['model'] = 'sel'; 
Value inserted. 











上 面 演示 的 是 在 Cassandra 中 使 用 命令 添加 数据 。 使 用 此 命令 可 以 添加 一 个 名 - 值 对 或 者 列 值 
到 一 行 里 ， 它们 定义 在 键 空间 的 ColumnFamily 中 。 比如 命令 setCars['Prius']['make']- 
'toyota ' JI T 44 —[ED] 'make' = 'toyota', HEUJ'Prius'. Prius ' 所 标识 的 行 是 Cars 
ColumnFamily 的 一 部 分 ， 而 Cars ColumnFamily 则 定义 在 键 空间 carDataStore 中 。 

添加 完 数据 后 ， 可 以 查询 和 访问 数据 。 要 获取 Prius 标识 的 名 - 值 对 〈 列 名 和 列 值 )， 使 用 
命令 : get Cars['Prius']。 输 出 如 下 所 示 : 


[default@CarDataStore] get Cars['Prius']; 

=> (column-zmake, value-746f796f7461, timestamp-1301824068109000) 

=> (columnzmodel, valuez70726975732033, timestamp-1301824129807000) 
Returned 2 results. 
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查询 时 要 注意 行 键 、 列 族 标识 符 和 列 键 都 是 区 分 大 小 写 的 。 因 此 使 用 'prius' (而 不 是 
'Prius' ) 不 会 返回 任何 名 - 值 对 。 试 试 运行 get cars['prius']， 应 该 会 得 到 啊 应 Returned 
0 results 此 外 注意 ， 查询 前 要 记得 发 送 命令 use CarDataStore, ik CarDataStore 成 为 


当前 的 键 空 间 。 
如 果 只 想得到 ' Prius' 行 的 'make ' 名 - 值 对 ， 可 以 这 样 查询 : 
[defaultGCarDataStore] get Cars['Prius']['make']; 


-» (column-make, value-746f796f7461, timestamp-1301824068109000; 

Cassandra 文 持 的 数据 模型 远 比 这 里 展示 的 丰 军 ， 碍 询 能 力也 比 这 里 演示 的 更 复习 ， 不 过 这 
些 话 题 还 是 留 到 后 面 章节 再 谈 。 我 相信 现在 你 已 经 有 点 感 党 了 。 

前 面 介 绍 了 两 个 简单 的 例子 ， 一 个 使 用 文档 存储 MongoDB ， 一 个 使 用 列 族 数 据 库 Apache 
Cassandra， 下 面 我 们 使 用 编程 语言 来 访问 它们 。 


2.2 ”使 用 多 种 语言 


要 把 NoSQL 艇 入 应 用 程序 栈 里 ， 极 其 重要 的 一 点 是 强健 而 灵活 的 多 语言 应 用 ， 即 能 使 用 最 
流行 的 语言 访问 和 操纵 这 些 存 储 。 

本 市 介绍 NoSQL 存储 和 编程 语言 之 间 的 两 种 接口 。 首 先是 Java, PHP, Ruby 和 Python 版 本 
的 MongoDB 驱动 ， 其 次 是 Apache Cassandra 的 与 语言 无 关 ( 支持 多 语言 ) 的 Thrift 接口 。 这 些 
主题 涵盖 的 都 是 非常 基本 的 内 容 ， 后 面 的 章节 会 在 这 个 基础 上 展示 更 强大 、 更 详细 的 用 例 。 


















































2.2.1 MongoDB 了 驱动 


本 方 介绍 四 种 不 同 语言 的 MongoDB IK, WKE Java, PHP, Ruby 和 Python. 

1. 

首先 从 MongoDB 的 github 代码 库 ( http://github.com/mongodb ) 中 下 载 最 新 版 MongoDB Java 
驱动 。 所 有 官方 文 持 的 驱动 都 托管 在 这 个 代码 库 中 。 最 新 版 本 的 驱动 是 2.5.2， 所 以 下 载 名 为 
mongo-2.5.2,jar 的 jar 文件。 

我 们 再 次 运行 bin/mongod 启动 本 地 MongoDB Rro XRH Java 程序 来 连接 服务 需 。 
请 查看 代码 清单 2-2 中 的 Java 样 例 程序 ， 它 连接 MongoDB, YH prefs 数据 库 的 所 有 集合 ， 然 
后 列 出 location 集合 中 的 所 有 文档 。 


* 代码 清单 2-2 ”连接 MongoDB HJ Java 样 例 程序 


import java.net.UnknownHostException; 
import java.util.Set; 

import com.mongodb.DB; 

import com.mongodb.DBCollection; 
import com.mongodb.DBCursor; 

import com.mongodb.Mongo; 

import com.mongodb.MongoException; 
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public class ConnectToMongoDB { 
Mongo m - null; 
DB db; 





public void connect() ( 
try 1 
m = new Mongo("localhost", 27017 ); 
j catch (UnknownHostException e) { 
e.printStackTrace(); 
j catch (MongoException e) ( 
e.printStackTrace(); 


) 


public void listAllCollections(String dbName) { 
if({m!=null)}{ 
db = m.getDB(dbName); 
Set«String» collections = db.getCollectionNames(); 


for (String s : collections) { 
System.out.printlnís); 


public void listLocationCollectionDocuments() ( 
Trimlenubl)i 
db = m.getDB("prefs"); 
DBCollection collection = db.getCollection("location"); 


DBCursor cur = collection. find(); 


while(í(cur.hasNext()) { 
System.out.println(cur.next()); 
j 
} else { 
System.out.printlní("Please connect to MongoDB 
and then fetch the collection"); 
} 


public static void main(String[] args) { 
ConnectToMongoDB connectToMongoDB - new ConnectToMongoDB(); 
connectToMongoDB.connect(í); 
connectToMongoDB.listAllCollections("prefs"); 
connectToMongoDB.listLocationCollectionDocumentsí); 


ConnectToMongoDB.java 


编译 和 运行 该 程序 时 ， 请 确保 MongoDB Java 驱动 在 classpath 里 。 运 行程 序 输出 如 下 : 
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location 

system. indexes 

{ "1d" xr { "Sold" s '"4097053abeo7000000003957*) ， 
"zip" s: 10001.0} 

{ " id" : ( "$oid" : "4c970541be67000000003858"} , 
"zip" : 94129.0) 

{ " id" : { "$oid" : "4c970548be67000000003859"3 , 
"zip" r 33101.0) 

L3 { "Soid" : "4c970555be6700000000385a") , 
"zip" s 1089.0} 

{ pe { "Sord' "4c97a6555c760000000054d8") , 
"zip" : I0001.:0] 

{ "_id" { "Soid" : "4c97a7ef5c760000000054da"} , 
"zip" s 94129.0) 

{ "id" : { "S$oid" "4c97add25c760000000054db"} , 
zip" : 94129.0 , "streetāddress" 


"name" : "John Doe" , 

"name" : "Lee Chang" , 

"name" : "Jenny Gonzalez" , 
"name" : "Srinivas Shastri" , 
"name" : "Don Joe" , 

"name" ; "John Doe" , 

"name" "Lee Chang" , 


"37000 Graham Street") 


Java 程序 的 输出 和 前 面 交 互 式 JavaScript shell 中 的 内 容 吻 合 


现在 看 看 同一 个 例子 如 何 使 用 PHP 实现 。 
2. MongoDB 的 PHP 驱动 





首先 从 MongoDB 的 github 代码 库 下 载 PHP 驱动 ， 配 置 驱 动 以 便 在 本 地 PHP 环境 中 使 用 。 





细 世 请 参阅 附录 A rp pecu 的 小 六。 
下 面 是 PHP 样 例 程序 ， 它 连接 本 地 MongoDB 服务 需 
中 的 所 有 文档 : 


$connection = new Mongo( "localhost:27017" ); 
$collection = Sconnection-»prefs-»location; 
Scursor = Scollectionesringdlij; 
foreach (Scursor as $id => $value) { 

echo "Sid: "; 

var dump( $value ); 


， 列 出 prefs 数据 库 location 集合 


connect to mongodb.php 


XT EOTARÍS ER, [HAEBETOUMTET ! 接 下 来 ,看 看 Ruby 如 何 处 理 同样 的 任务 。 


3. MongoDB 的 Ruby 驱动 


所 有 主流 语言 的 驱动 MongoDB 都 有 ，Ruby 也 不 例外 。 可 以 从 MongoDB 的 github 代码 库 中 
获取 驱动 , 不 过 用 RubyGems 来 管理 安装 更 人 简单。 要 准备 使 用 Ruby 连接 MongoDB, 最 起 码 要 获 





取 最 新 的 mongo 和 bson 的 gem, ZIUN F: 
gem install mongo 


bsongem 会 上 日 动 安装 。 
代码 清单 2-3 描述 Ruby 样 例 程序 ， 
location 集合 中 的 所 有 文档 。 


图 灵 社 区 


此 外 ， 推 存 安装 bson, ext。 
它 连接 到 MongoDB 服务 需 并 列 出 prefs 数据 库 
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P 代码 清单 2-3 (EH Ruby 获取 MongoDB 集合 中 的 所 有 文档 


db = Mongo::Connection.new("localhost", 27017).db("prefs") 
locationCollection = db.collection("location") 
locationCollection.find().each ( |row| puts row.inspect 





connect to mongodb.rb 


接 下 来 轮 到 用 Python 连接 MongoDB 了 。 

4. MongoDB 的 Python 驱动 

执行 easy. install pymongo 是 安装 Python 驱动 最 简单 的 方式 。 安 装 好 以 后 ， 可 以 调用 
代码 清单 2-4 中 的 Python 程序 来 获取 prefs 数据 库 location 集合 中 的 所 有 文档 。 


V. 代码 清单 2-4 访问 MongoDB 的 Python 程序 


from pymongo import Connection 
connection = Connection('localhost', 27017) 
db - connection.prefs 
collection = db.location 
for doc in collection.find(): 
doc 


connect to mongodb.py 


到 这 儿 ， 同 一 个 例子 至 少 用 了 五 种 方式 来 创建 和 运行 。 这 个 例子 简单 有 用 ， 它 演示 了 创建 连 
接 以 及 获取 数据 库 、 集 合 和 集合 中 的 文档 等 二 接 相 关 的 概念 。 








2.2.2 初 识 Thrift 


Thrift 是 跨 二 言 服务 开发 框架 。 它 由 一 套 软 件 和 一 个 代码 生成 引 敬 组成， 能 无 颖 连接 多 种 垣 
言 。Apache Cassandra 使 用 Thrift 接 口 提供 与 列 数 据 存储 交互 的 抽象 层 。 有 关 Apache Thrift 的 更 
多 内 容 请 访问 http://incubator.apache.org/thrift/。 

Cassandra 的 Thrift 接口 定义 放 在 Apache Cassandra 发 行 包 中 interface 目录 下 名 为 
casssandra.thrift 的 文件 中 。Cassandra 不 同 版 本 的 Thrift 接口 定义 有 所 不 同 , 请 确保 你 获得 
了 正确 版 本 的 接口 文件 。 此 外 ， 还 要 获得 一 份 兼容 定义 文件 的 Thrift. 

Thri 攻 可 以 创建 许多 不 同 的 语言 绑 定 。 在 Cassandra 的 例子 中 , 可 以 为 Java, CH., C, Python 、 
PHP 和 Perl 生成 接口 。 生 成 所 有 Thrift 接口 最 简单 的 命令 是 : 


thrift --gen interface/cassandra.thrift 
此 外 ， 还 能 为 Thrift EX EE) FH] HAXEO Hg, RÆ Java Thrift 接口 的 命令 是 : 
thrift --gen java interface/cassandra.thrift 


生成 好 Thrift 模块 后 , 就 可 以 在 程序 中 使 用 了 。 假设 成 功 生 成 了 Python HJ Thrift 接口 和 模块 ， 
就 可 以 按照 代码 清单 2-5 所 示 ， 连 接 carDataStore 键 空间 查询 数据 。 
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$ 代码 清单 2-5 ”使 用 Thrift 接口 查询 CarDataStore 键 空 间 


from thrift import Thrift 

from thrift.transport import TTransport 

from thrift.transport import TSocket 

from thrift.protocol.TBinaryProtocol import TBinaryProtocolAccelerated 
from cassandra import Cassandra 

from cassandra.ttypes import * 

import time 

import pprint 











def mainí): 


Socket - TSocket.TSocket("localhost", 9160) 

protocol = TBinaryProtocol.TBinarvProtocolAccelerated(transport) 
transport - TTransport.TBufferedTransport (socket) 

client = Cassandra.Clientí(protocol) 

pp = pprint.PrettyPrinter(indent-2) 


keyspace = "CarDataStore'" 

column path = ColumnPath(column family-"Cars", column-"make") 
key = II Jr Li 

tiy: 


transport.open() 
Query for data 
column, parent = ColumnParentí(column familv-"Cars") 
slice range = SliceRange(start-"", finish-"") 
predicate = SlicePredicate(slice range-slice range) 
result = client.get slice (keyspace, 
key, 
column parent, 
predicate, 
ConsistencyLevel.ONE) 
pp.pprint (result) 
except Thrift.TException, tx: 
print 'Thrift: $s' $ tx.message 
finally: 
transport.close() 


if | name  -- ' main .': 
mainí() 


query cardatastore using thrift.py 
尽管 Thrift 非常 有 用 ， 不 过 有 时 我 们 还 是 会 选择 已 有 的 语言 API。 因 为 这 些 得 到 测试 和 积极 
文 持 的 API 能 提供 迫切 需要 的 可 徘 性 和 稳定 性 ， 即 便 它们 所 连接 的 产品 还 处 在 语言 的 快速 发 展 


中 。 有 许多 这 类 API 底层 使 用 Thrift, Cassandra 有 很 多 这 样 的 类 库 ， 比 如 支持 Java 的 Hector, 3x 
FF Python 的 Pycassa 和 支持 PHP 的 Phpcassa. 








2.3 小结 








本 章 的 目标 是 市 你 初步 体验 NoSQL 数据 库 ， 通 过 动手 实验 演示 核心 概念 。 本 章 内 容 基本 实 
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现 了 这 一 目标 ， 并 提供 了 超越 “Hello World” 的 更 丰 定 的 内 容 。 

本 章 通 过 简洁 的 小 例子 解释 了 NoSQL 相关 的 初级 概念 。 各 种 例子 都 从 基础 开始 ， 逐 渐 发 展 
到 能 解释 一 些 基本 概念 为 止 。 所 有 例子 都 是 用 领先 的 NoSQL 数据 库 产 品 MongoDB 和 Apache 
Cassandra 来 演示 的 。 

本 章 逻 辑 上 分 为 两 个 部 分 : 一 部 分 介绍 NoSQL 存储 的 核心 概念 ， 另 一 部 分 使 用 主流 编程 语 
言 连接 NoSQL 存储 。 因 此 ， 前 一 部 分 的 例子 都 通过 命令 行 客 户 庙 运行， 而 后 一 部 分 的 例子 可 以 
作为 单独 的 程序 来 运行 。 

在 本 章 基 础 之 上 ， 下 一 章 会 介绍 更 多 与 NoSQL 数据 库 交 互 和 数据 查询 的 例子 ， 同 时 也 会 介 
绍 其 他 不 同 的 NoSQL 新 产品 。 
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*Os 
NoSQL 接口 与 交互 


本 章 内 容 

a 如 何 访问 常见 的 NoSQL 数据 库 

O 常见 NoSQL 数据 库 的 数据 存储 样 例 

口 常见 NoSQL 存储 的 集合 查询 

O 常见 NoSQL 数据 库 的 驱动 和 语言 支持 








章 介绍 忆 NoSQL 数据 存储 交互 的 基本 方式 。NoSQL 存储 多 种 多 样 ， 访 问 和 交互 方式 
也 不 尽 相 同 。 本章 尝试 总 结 NoSQL 数据 库 不 同 访问 和 碍 询 方式 的 最 突出 特点 。 不 敢 委 
言 缆 兰 全 面 ， 不 过 内 容 还 算 比 较 全 面 扎实 。 
NoSQL 技术 不 断 发 展 ， 变 化 的 市 万 非常 快 。 随 着 新 的 使 用 场景 、 新 的 编程 语言 和 扩 术 平台 
的 出 现 ， 与 NoSQL 存储 交互 的 方式 也 在 不 断 变化 。 因 而 我 们 要 做 好 持续 学 习 的 准备 ， 并 期 生 未 
来 可 能 出 现 的 标准 化 。 


3.1 没 了 SQL 还 剩 什么 


关系 型 数据 库 普 及 的 一 个 重要 原因 是 标准 化 的 查询 和 访问 机 制 SQL. SQL 是 结构 化 查询 语 
Fi (Structured Query Language ) 的 简称 ， 是 关系 型 数据 库 的 世界 语 。 它 的 语法 结构 简单 直观 ， 用 
户 在 很 短 时 间 内 就 能 玖 练 使 用 。SQL 基于 关系 代数 , 可 以 用 来 获取 单 表 记 录 , 或 者 关联 多 表 记 录 。 
为 了 强调 它 的 简单 之 美 ， 这儿 列举 一 些 例子 。 
O 假设 表 people 中 包含 某 个 组 织 中 的 所 有 人 名 和 电子 邮件 地 址 ， 要 获取 表 中 所 有 数据 ， 
就 使 用 SELECT * FROM people。 
Q E people 中 人 名 对 应 name 列 ,要 获取 表 中 所 有 人 名 ,使 用 SELECT name FROM peoples 
Q 获取 所 有 有 Gmail 账户 时 人 , 使 用 SELECT * FROM people where email LIKE 
'$gmail.com'a 
a 假设 表 books people like 有 两 列 : person name 和 title, 分 别 存 储 人 名 ( 弓 | 用 表 
people 中 name 列 里 的 所 有 数据 值 ) 和 他 们 喜欢 的 书 的 书 名 ， 要 获取 相关 联 的 人 名 和 书 名 


列表 ， 使 用 SELECT people.name, books people like.book title FROM people 
























































和 books people like WHERE people.name = books people like.person names 
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EIEI, SQL 虽 好 ， 但 也 有 缺点 ， 比 如 处 理 大 量 稀 朴 数据 就 时 常 露 恢 。 不 过 NoSQL 存储 
里 没有 SQL, 更 准确 地 说 是 不 存在 关系 型 数据 。 因 此 查询 和 访问 数据 的 方式 也 有 所 不 同 。 在 接 下 
来 的 几 个 小 和 中 我 们 将 进行 揭秘 ， 你 会 了 解 到 同样 是 查询 和 访问 数据 ，NoSQL 和 SQL 5z7245 ful 
不 同 ， 又 有 何 相似 。 

首先 我 们 来 了 解数 据 存储 与 访问 的 基本 知识 。 


3.1.1 存储 和 访问 数据 


前 一 章 中 我 们 通过 基本 的 例子 初步 体验 了 NoSQL， 主 要 使 用 的 是 文档 存储 MongoDB 和 最 终 
一 致 存储 Apache Cassandra 来 存储 和 访问 数据 。 这 一 市, 我 们 将 在 此 基础 上 进一步 深入 了 解 NoSQL 
数据 存储 与 访问 。 为 了 区 分 NoSQL 不 同 的 数据 存储 与 访问 方式 ， 自 和 完 将 它们 分 为 下 列 类 型 。 

口 文档 存储 : MongoDB 和 CouchDB 

OQ 键 / 值 存储 ( 内 存 里 的 、 可 持久 化 的 ， 甚 至 是 有 序 的 ):;: Redis 和 BerkeleyDB 

O 列 族 存 储 : HBase 和 Hypertable 

OQ 最 终 一 致 的 键 / 值 存 储 : Apache Cassandra 和 Voldermot 

这 个 分 类 不 是 很 完整 ， 比 如 它 忽 略 了 对 象 数据 库 、 图 形 数据 库 和 XML 数据 存储 ， 而 这 些 和 都 
在 本 书 范 围 之 外 。 这 个 分 类 的 各 类 之 间 也 不 是 互 斥 的 。 一 些 NoSQL 数据 存储 能 提供 所 有 分 类 的 
功能 。 这 个 分 类 主要 还 是 按 最 恰当 的 描述 将 非 关 系 型 数据 库 归 并 成 组 。 































我 们 对 NoSQL 和 存储、 访问 和 查询 的 讨论 仅 限于 所 列 分 类 ,而且 只 考虑 市 
面 上 最 流行 的 产品 。 因 为 对 于 建立 共通 的 基础 NoSQL 概念 来 说 ， 几 个 NoSQL 
数据 库 足 侨 。 对 这 些 数据 库 的 了 解 也 有 助 于 为 继续 阅读 下 面 章 节 的 高 阶 主 题 及 
更 详尽 的 内 容 做 好 准备 。 


前 面 章节 已 经 介绍 过 文档 存储 MongoDB， 下 面 介 绍 文档 数据 库存 储 和 访问 的 细节 。 

实践 出 真知 ， 所 以 还 是 举 个 例子 。 这 个 例子 非常 和 宙 单 ， 但 是 很 有 趣 ， 内 容 是 分 析 Web 服务 
髓 的 日 志 数 据 。 日 志 格 式 参照 综合 日 志 格 式 (Combined Log Format )， 这 种 格式 用 来 记录 Web 服 
务 咒 访问 和 请 求 活动 的 日 志 。 更 多 有 关 Apache Web 服务 器 综合 日 志 格 式 的 内 容 可 以 访问 
http:/httpd.apache.org/docs/2.2/logs.htmj#comblined。 


3.1.2 ”MongoDB 数 据 存储 与 访问 


Apache Web 服务 需 综 合 日 志 格 式 捕捉 请 求 和 响应 的 下 列 属 性 。 

Q 客户 端 卫 地 址 : 如 果 客 户 端 通过 代理 请 求 资 源 ， 这 个 值 可 能 是 代理 IP HE. 
OQ 客户 标识 : 通常 不 可 靠 ， 而 且 往往 不 会 记录 。 

口 认证 用 户 名 : 如 果 访 问 Web 资源 无 需 认 证 ， 则 没有 这 个 值 。 

口 请 求 接收 时 间 : 包括 日 期 、 时 间 和 时 区 。 

口 请 求 内 容 : 进一步 细 分 为 四 个 部 分 : 方法 、 资 源 、 请 求 参 数 和 协议 。 
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O 状态 码 : HTTP 状态 码 。 

O 返回 对 象 的 大 小 : 以 字 市 为 单位 。 

O 提交 方 (Referrer): 通常 是 连接 到 Web 页 面 或 资源 的 URI 或 URL。 

OQ 用 户 代 理 : 客户 端 程序 ， 通 常 是 访问 Web 页 面 或 资源 的 程序 或 设备 。 

日 志 是 文本 文件 , 每 个 请 求 一 行 。 要 获取 文本 文件 中 的 数据 , 需要 解析 文件 并 提取 其 中 的 值 。 
用 Python 写 程 序 解析 日 志文 件 很 答 单 ， 如 代码 清单 3-1 所 示 。 


Y, 代码 清单 3-1 日 志 解 析 程 序 


import re 

import fileinput 

 lineRegex = re.compile(r'(NXdeNX.NdeN.NdeN. Nd) ([^ ]*) ([^ ]*) 
CET] 

















class ApacheLogRecord(object): 


def | init, (self, *rgroups ): 
self.ip, self.ident, ^ 
self.http user, self.time, \ 
self.request line, self.http response code, ^ 
self.http response size, self.referrer, self.user agent - rgroups 
self.http method, self.url, self.http vers = self.request line.split(; 


def str  Á(selt): 
return ' '.join([self.ip, self.ident, self.time, self.request line, 
self.http response code, self.http response size, self.referrer, 
self.user agent]) 


class ApacheLogFile(object): 


def | init (self, *filename): 
self.f = fileinput.input(filename) 


def close(í(self): 
self.f.close() 


def | iter (self): 
match =  lineRegex.match 
for line in self.f: 
m = matchí(line) 
if m: 
try: 
log line = ApacheLogRecord(*m.groups(í)) 
yield log line 
except GeneratorExit: 


pass 
except Exception as e: 
print "NON COMPLIANT FORMAT: ", line, "Exception: ", e 


apache log parserpy 
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得 到 数据 以 后 ， 把 数据 存储 到 MongoDB 里 。 因 为 日 志 解 析 需 是 用 Python 写 的 ， 所 以 用 
PyMongo ( Python 的 MongoDB 驱动 ) 把 数据 写 人 MongoDB 更 简单 些 。 在 使 用 PyMongo 之 前 ， 
我 们 先 来 聊 聊 MongoDB 的 数据 存储 。 





A 作为 文档 存储 的 一 种 ，MongoDB 可 以 存储 任意 数据 集合 ， 只 要 数据 可 以 
用 JSON 式 的 对 象 层 次 结构 表示 就 行 。( 如 果 不 熟 悉 JSON ， 可 以 在 
www.json.org/ 读 到 它 的 规范 。 这 是 一 种 在 Web 应 用 中 流行 的 快速 、 轻 量 级 数据 
互 挽 格式 。) 访问 日 志 中 的 一 行 日 志 用 JSON 格式 可 以 表示 如 下 : 


{ 
"ApacheLogRecord": { 
"ip": "127.0.0.1", 
"ident" : "-", 
"http_user" : "frank", 
"time" s "10/0Oct/2000:13:55:36 -0700", 
"request_line" : { 
"http_method" : "GET", 
"url" : "/apache_pb.gif", 
"http_vers" : "HTTP/1.0", 
Fa 
"http_response_code" : "200", 
"http_response_size" : "2326", 
"referrer" : "http://www.example.com/start.html", 
"user agent" : "Mozilla/4.08 [en] (Win98; I ;Nav)", 
), 
} 


127.0.0.1 - frank [10/0ct/2000:13:55:36 -0700] 

"GET /apache_pb.gif HTTP/1.0" 200 

2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] 
(Win98; I ;Nav)" 


MongoDB 支持 所 有 JSON 数据 类 型 ， 包 括 string, integer, boolean, double, 
null, array 和 object。 此 外 还 支持 其 他 一 些 数 据 类 型 , 包括 date, objectid, binary 
data, regular expression 和 code。 之 所 以 支持 这 些 数据 类 型 ， 是 因为 Mongo 不 
只 支持 JSON， 还 支持 BSON (binary encoded serialization ofJSON-like structure， 
二 进 制 编码 序列 化 JSON 结构 ),75 X BSON 893,6 T 437 E] http;//bsonspec.org/. 

要 在 集合 1ogdata 中 插入 对 应 一 行 日 志文 件 的 JSON 文 档 , 可 以 用 Mongo 
shell 输入 : 


doc = 1 
"ApacheLogRecord": { 
"ip": "127.0.0.1", 
" ldent " : mo : 
"http user" : "frank", 
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"Ernst s. "TIUIJ/OGLI2000:136£55235- 0700'*, 
"request line" : ( 
"http method" : "GET", 
"url" : "/apache pb.gif", 
"http vers" : "HITP/1.0"', 
iu 
"http response code" : "200", 
"http response size" : "2326", 
"referrer" : "http://www.example.com/start.html", 
"user agent" : "Mozilla/4.08 [en] (Win98; I ;Nav)", 
Li 
Fi 
db.logdata.insert (doc); 


Mongo 还 提供 save 方法 ， 如 果 记 录 在 集合 中 已 存在 则 更 新 ， 不 存在 则 播 入 。 





用 Python 可 以 直接 把 字典 (其 他 语言 中 也 称 为 映射 、 哈 和 硕 映 射 或 者 关联 数组 ) 表示 的 数据 
存 进 MongoDB, ， 这 是 因为 PyMongo ( 驱动 ) 能 把 字典 翻译 成 BSON 数据 格式 。 为 了 完成 这 个 例 
子 ， 创建 工具 函数 把 对 象 的 所 有 属性 及 对 应 值 转 成 字典 ， 像 下 面 这 样 : 


def propsíobj): 
pr = () 
for name in dirí(obj): 
value - getattrí(obj, name) 
if not name.startswith(' ^') and not inspect.ismethod(value): 
pr[name] - value 
return pr 


apache log parser mongodb.py 


PCT KGE request line 看 作 单 个 元 系 。 你 可 以 将 其 保存 为 三 个 单独 字段 : HTTP 方法 、 
URL 和 协议 版 本 ， 如 代码 清单 3-1 所 示 。 还 可 以 创建 认 套 的 对 象 层 次 结构 ， 这 个 会 在 本 章 稍 后 部 
分 讨论 查询 时 触及 。 

有 了 这 个 困 数 ， 将 数据 存 人 MongoDB 只 需要 几 行 代码: 


connection = Connection() 

db = connection.mydb 

collection s db.logdata 

alf = ApacheLogFile(«path to access log») 

for log line in alf: 
collection.insert(props(log line)) 

alf.close() 








apache log parser mongodb.py 
简单 吧 ? 现在 你 已 经 完成 了 日 志 数 据 的 存储 ， 可 以 对 它 进 行 过 滤 和 分 析 了 。 


灵 社 区 会 员 DanyLee HF 尊重 版 权 


3.1] 没 了 SQL 还 剩 什么 41 


3.4.3 MongoDB 数 据 查询 


如 果 不 能 访问 Web 服务 咒 的 日 志 ， 本 书 提 供 的 源码 包 里 有 一 份 样本 数据 集 ， 是 用 我 的 Web 
服务 器 访问 日 志 生 成 的 ， 名 为 sample access 1og. 

存储 完 数据 ， 就 可 以 查询 并 过 滤 了 了。 前面 章节 介绍 了 MongoDB 的 基本 查询 机 制 。 现 在 回顾 
一 下 ， 再 进一步 探索 与 查询 相关 的 一 些 补 充 概 念 。 

日 志 数 据 存储 在 名 为 1ogqata 的 集合 中 。 要 列 出 1ogdqata 集合 中 所 有 的 记录 , 启动 Mongo 
shell ( JavaScript shell， 可 以 通过 bin/mongo 命令 调用 )， 人 然后 这 样 查询 : 


> var cursor = db.logdata.find() 

















> while (cursor.hasNext()) printjson(í(cursor.next()); 
数据 被 漂亮 地 展示 出 来 ， 像 下 面 这 样 : 
i 

" 31d" :; ObjectlId("4cb164b75a91870732000000"), 

"utto vers" : "HTTP/1.1", 

"ident" : "-", 

"http response code" : "200", 

"referrer" : "=", 

"url" e "/hi/tag/2009/", 

Mp5 e t23. nb 

"time" : "09/0ct/2010:07:30:01 -0600", 

"http response size"' : "13308", 

"http meLnod" : "GET", 

"user agent" : "Baiduspider-*(-http://www.baidu.com/search/spider.htm)", 

"Beto user" p =, 

"request line" : "GET /hi/tag/2009/ HTTP/1.1" 
I 
{ 

" id" : ObjectId("4cb1l64b75a91870732000001"), 

"http_vers" : "HTTP/1.0", 

"ident" x e 

"http response code" : "200", 

"referrer" : "-", 

"url" s "/favicon.ico", 

"ip" : "89.132.89.62", 

"time" : "09/0ct/2010:07:30:07 -0600", 

"http response size" : "1136", 

"http method" : "GET", 

"user agent" : "Safari/6531.9 CFNetwork/454.4 Darwin/10.0.0 (1386) 
(MacBook5$2C1)", 

"http uper" s "2". 

"request line" : "GET /favicon.ico HTTP/1.0" 


j 








现在 谢 开 查询 和 结果 集 ， 看 看 里 面 的 细节 。 

首先 ， 前 面 的 命令 声明 了 一 个 游标 ， 接 着 取出 1ogaata 集合 中 的 所 有 数据 并 赋值 给 它 。 游 
FRE AT ti TE AS As US PERI MongoDB 中 都 很 常见 。 

在 图 3-1 中 可 以 看 到 游标 是 如 何 工 作 的 。 方 法 ab.1logaata.find() 返 回 了 集合 10gdata 
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中 的 所 有 数据 ,然后 用 游标 来 遍历 整个 集合 。 代 码 遍 历 游标 指 问 的 元 杂 并 把 它们 打印 出 来 。 也 数 
printjson 用 深 亮 的 JSON 风格 格式 打印 出 元 条 ， 提 高 了 可 读 性 。 


游标 的 初始 位 置 一 一 一 一 一 一 > 


第 一 次 返回 /移动 
后 游标 的 位 置 


K| 3-1 


芍 取 整个 集合 当然 很 好 ,不 过 通常 只 需要 部 分 数据 。 接 下 来 了 解 如 何 过 滤 集 合 得 到 子 集 。 SQL 
中 获取 了 于 集 和 常见 的 方式 有 下 面 两 种 : 

a 限定 输出 表 中 部 分 列 而 非 所 有 列 ; 

a 限定 表 中 行 的 数量 ， 方 法 是 根据 一 列 或 多 列 的 值 进行 过 渡 。 

在 MongoDB Hi, 限定 输出 部 分 列 或 属性 并 不 明智 , 因为 文档 一 般 都 是 完整 返回 。 话 虽 如 此 ， 
真 的 只 想 获取 文 梢 的 部 分 属性 还 是 能 做 到 的 ， 只 不 过 要 限制 结 末 集 。 限 定 文档 集合 为 整个 集合 的 
子 集 与 SQL 限定 绪 末 集 为 指定 行 集 类 似 ， 参 见 SQL WHERE 子 句 。 

让 我 们 回 到 日 志 数 据 的 例子 ， 以 展示 返回 集合 中 子 集 的 方式 。 

要 获取 所 有 http. response code 值 为 200 的 日 志 记 录 ， 碍 询 如 下 : 

db.logdata.find(( "http response code": "200" }); 

这 个 查询 接受 查询 文档 {"http_response_code":"200"}) 作 为 find 方法 的 参数 ,， 它 定义 
了 要 查询 的 模式 。 

要 获取 所 有 http response code 7j 200, 而 nttp_vers (协议 版 本 ) 为 HTTP/1.1 的 日 
志 记 录 ， 可 以 这 样 查询 : 

db.logdata.find(( "http response code":"200", "http vers":"HTTP/1.1" }) 

依然 是 返回 一 个 查询 文档 作为 find 方法 的 参数 ,但 这 次 传递 给 find 方法 的 查询 文档 中 包 
括 两 个 属性 。 

要 获取 所 有 user agent 是 百度 搜索 引擎 候 虫 的 日 志 记 录 ， 可 以 这 样 查询: 


db.logdata.find(( "user agent": /baidu/i }) 


仔细 观察 语法 ,会 注音 到 查询 文档 实际 上 包含 的 是 正则 表达 式 而 非 确 切 值 。 表 达 式 /baidu/i 
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匹配 任何 user_agent 值 包 含 baidu 的 文档 。 标 志 i 表示 忽略 大 小 写 , 所 以 无 论 baidu.Baidu, 
baiDU， 还 是 BAIDU， 所 有 表达 式 都 会 匹配 。 要 获取 所 有 user agent 以 Mozilla 开始 的 日 志 记 
录 ， 可 以 这 样 查询 : 

db.logdata.find(( "user_agent": /^Mozilla/ }) 

查询 文档 支持 正则 表达 式 引 发 了 无 限 的 可 能 性 ,并 赋 子 用 户 强大 的 力量 。 ANGE IATER BE [th 
叔 伯 所 说 : 力量 与 责任 同 在 。 因 此 ， 尽 管 可 以 用 正则 表达 式 得 到 需要 的 子 集 ， 但 要 注意 ， 复 杂 的 
正则 表达 式 会 导致 成 本 较 高 的 完全 扫 描 ， 这 对 大 数据 来 说 会 引发 大 麻烦 。 

数值 字段 可 以 用 比较 操作 符 ， 包 括 大 于 、 大 于 等 于 、 小 于 、 小 于 等 于 和 和 人 等于。 要 获取 所 有 啊 
应 大 于 1111k 的 日 志 记 录 ， 可 以 这 样 查询 : 

db.logdata.find(( "http response size" : { $gt : 1111 )]) 

看 过 约束 结果 集 的 例子 ， 再 看 看 限定 为 一 个 url 字段 的 例子 。 要 查询 logdata 集合 获取 所 
有 MSN 机 器 人 访问 的 URL， 命 令 如 下 : 

db.logdata.find(( "user agent':/msn/i ), ( "url":true )) 

此 外 ， 可 以 将 最 后 的 查询 返回 的 行 数 限制 为 10: 

db.logdata.find(( "user agent':/msn/i ), ( "url':true )).limit(10) 

有 时 ， 只 需 知 道 匹 配 数量 ， 无 需 返 回 所 有 文档 。 比 如 要 找 出 MSN 机 硕 人 请 求 总 数 ， 可 以 像 
下 面 这 样 查询 logdata 集合 : 

db.logdata.find(( "user agent':/msn/i )).count() 

有 关 MongoDB 高 级 查询 的 内 容 还 有 很 多 ， 我 们 将 留 到 第 6 革 再 讨论 。 接 下 来 我 们 用 男 一 个 
NoSQL 存储 一 一 Redis 一 一 来 存储 数据 。 















































3.1.4 ”Redis 数 据 存储 与 访问 


Redis 是 持久 化 键 / 值 存储 。 为 了 保持 高 效 ， 它 把 数据 库 放 在 内 存 里 ,然后 利用 异步 线程 将 其 
写 人 位 盘 。 它 可 以 保存 字符 串 、 列 表 、 哈 希 、 集 合 和 有 序 集 ， 同 时 还 提供 了 一 套 丰 富 的 命令 来 操 
作 和 集合 ,插入 和 获取 数据 。 

安装 和 设置 Redis 请 参阅 附录 A。 

下 面 用 Redis MATA m ( redis-cli ) 和 图 书 分 类 列表 的 例子 来 解释 Redis。 

第 一 步 启 动 redis-cli 并 确认 它 工 作 正常 。 首先 进入 Redis 文 件 目 录 。Redis 以 源码 形式 发 布 ， 
涯 要 解压 并 编译 源码 。 编译 后 目录 里 就 会 出 现 可 执行 文件 。 在 有 些 操 作 系 统 上 ,还 会 在 公共 目录 
中 创建 指向 可 执行 程序 的 符号 链接 。 我 的 Redis 放 在 目录 Redis-2.2.2 中 ， 目 录 名 对 应 Redis 最 新 版 
本 "”。 执 行 xeqis-server 命 令 会 启动 Redis 服 务 需 。 要 使 用 软 认 配置 就 直接 运 
行 ./z*edqis-server。 接 着 运行 redqis-c11i 连 接 服 务 器 。Redis 服 务 需 端口 默认 是 6379。 




















(D 目前 Redis 已 经 发 布 了 2.4.14 和 2.6.0-1c5 版 本 。 一 译 者 注 
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要 保存 键 / 值 对 { akey:"avalue"}， 只 和 需 键 人 以下 内 容 : 

./redis-cli set akey "avalue" 

Ed ET t HE SIM OK, JAEN, UE. d EUtLCRLPEAE. UR 
认 avalue 已 保存 ， 可 以 像 下 面 这 样 获取 键 对 应 的 值 : 

./redis-cli get akey 

啊 应 是 avalue。 














理解 Redis 样 例 

在 这 个 样 例 中 ， 数据库 里 存储 的 是 书 名 列表 。 每 本 书 用 任意 一 组 标签 标记 。 例如 ， 在 列表 
中 添加 由 “Michael Pollan” 2&5 #9 "The Omnivore's Dilemma” 一 书 ， 并 添加 标签 “organic”、 
"industrialization" , "local", "written by a journalist” ~ “best seller” 和 “insight”。 又 或 者 添加 由 
"Malcolm Gladwell” 2&5 85 “Outliers” —-P, 3t4Rj57j "insight", "bestseller" fe "written by 
a journalist"。 之 后 可 以 获取 列表 中 的 所 有 书籍 ， 或 是 所 有 标记 为 “written by a journalist” 85-5 
籍 ， 又 或 是 所 有 与 “organic” 有 关 的 书籍 ， 还 可 以 获取 指定 作者 的 所 有 书 的 列表 。 下 一 节 再 介 
绍 查询 ， 现 在 先 关注 如 何 恰当 地 保存 数据 。 











如 果 编 译 源 代码 后 使 用 "make instal1" 安 装 Redis ,那么 redqis-serveL 
和 redis-cli 默认 会 被 添加 到 /usr/local/bin 。 Jw  X& 4 
/usr/local/bin 被 添加 到 环境 变量 PATH 中 ， 你 就 可 以 从 任何 目录 中 运行 


redis-server fe redis-cli 了 。 









Redis 文 持 下 列 几 种 不 同 的 数据 结构 。 

D 列表 ， 更 准确 地 说 是 链表 。 元 系 的 顺序 集合 。 访 问 两 端 速度 飞快 ， 日 无 关 列 表 中 元 素 的 

D 集合 。 元 素 的 无 序 集合 ， 且 元 素 之 间 互 不 重复 。 

口 有 序 集合 。 元 系 的 有 序 集 合 。 

口 哈 希 。 键 / 值 对 的 集合 

Q FRR, FIREA 

对 这 个 例子 ， 我 选择 用 集合 ， 因 为 顺序 并 不 重要 。 集 合 命名 为 books。 每 本 书 ， 即 books 集 
合 的 每 个 成 员 ， 有 如 下 属性 : 

Q Id (唯一 标识 ) 

O Title ( PZ ) 

口 Author (作者 ) 

口 gt (标签 的 一 个 集合 
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Q Id (唯一 标识 ) 

口 Name (名称) 

假定 redis-server 已 运行 ， 启动 redis-cli 并 输入 下 列 命 令 创 建 books 集合 的 第 一 个 
成 员 : 





$ ./redis-cli incr next.books.id 

(integer) 1 

$ ./redis-cli sadd books:1:title "The Omnivore's Dilemma" 
(integer) 1 

$ ./redis-cli sadd books:1:author "Michael Pollan" 


books and tags.txt 


Redis 提供 了 一 组 非常 有 用 的 命令 ， 有 关 它 们 的 分 类 和 定义 可 以 访问 : http:/redis.io/ 
commands。 前 面 例子 中 第 一 个 命令 通过 递增 集合 标识 符 生 成 了 一 个 序列 号 。 因 为 集合 刚 创建 好 ， 
所 以 输出 自然 是 “1”。 接 下 来 两 个 命令 在 books 集合 中 创建 了 一 个 成 员 。 成 员 标 识 id 值 为 1， 
就 是 刚才 生成 的 序列 号 。 到 目前 为 止 ， 成 员 有 两 个 属性 title 和 author, 值 为 字符 串 。 命令 
sadd 用 来 添加 集合 成 员 。 列 表 、 哈 希 和 有 序 集合 也 有 类 似 的 命令 。 命 令 lpush 和 rpush 分 别 
添加 一 个 元 系 到 列表 的 头 部 和 尾部 ， 而 命令 zada 则 添加 元 素 到 有 序 集合 

接 下 来 ， 为 刚刚 添加 的 books 集合 成 员 增 加 一 组 标签 。 以 下 是 实现 的 命令 : 























./redis-cli sadd books:1:tags 1 
integer) 1 

./redis-cli sadd books:1:tags 2 
integer) 1 

./redis-cli sadd books:1:tags 3 
integer) 1 

./redis-cli sadd books:l1:tags 4 
integer) 1 

./redis-cli sadd books:1:tags 5 
integer) 1 

./redis-cli sadd books:1:tags 6 
integer) 1 


: 
( 
5 
( 
` 
( 
` 
( 
: 
( 
$ 
( 
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上 面 给 标识 为 1 的 成 员 添加 了 一 组 数字 标签 标识 符 。 标签 目前 只 定义 了 标识 从 。 下 面 进一步 
分 解 books:1:tags 的 组 成 部 分 ， 解 释 Redis 中 键 的 命名 体系 。 除 了 那些 包含 空格 和 特殊 字符 
者 以 外 , 在 Redis 中 任何 字符 串 都 可 以 作为 键 , 但 要 尽量 避免 使 用 过 长 或 过 短 的 键 。 键 的 构成 可 
以 是 结构 化 的 ， 可 以 建立 继承 关系 ,可 以 般 套 对 象 及 属性 。 约 定 俗 成 的 键 名 结构 是 
object-type:id:field。 按 照 这 个 结构 ， 刍 pooks :1:tags 表示 集合 books 中 标识 为 ] 的 
成 员 的 标签 集合 。 类 似 地 ，books :1:title 表示 集合 books 中 标识 为 1 的 成 员 的 title 字段。 

给 books 集合 第 一 个 成 员 添 加 完 标 签 后 ， 定 义 标 签 如 下 : 
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$ ./redis-cli sadd tag:1:name "organic" 
32 (integer) 1 
$ ./redis-cli sadd tag:2:name "industrialization" 
(integer) 1 
$ ./redis-cli sadd tag:3:name "local" 
(integer) 1 
$ ./redis-cli sadd tag:4:name "written by a journalist" 
(integer) 1 
$ ./redis-cli sadd tag:5:name "best seller" 
(integer) 1 
$ ./redis-cli sadd tag:6:name "insight" 
( 


integer) 1 
books and tags.txt 


定义 完 标 签 以 后 ， 再 反 过 来 关联 包含 标签 的 图 书 ， 建 立交 叉 关 系 。 第 一 个 成 员 有 6 个 标签 ， 
我 们 将 其 添加 到 每 个 标签 中 : 


$ ./redis-cli sadd tag:1:books 1 
$ (integer) 1 
$ ./redis-cli sadd tag:2:books 1 
(integer) 1 
$ ./redis-cli sadd tag:3:books 1 
(integer) 1 
$ ./redis-cli sadd tag:4:books 1 
(integer) 1 
$ ./redis-cli sadd tag:5:books 1 
(integer) 1 
$ ./redis-cli sadd tag:6:books 1 
(integer) 1 


books and tags.txt 





区 义 关 系 建立 好 以 后 ， 可 以 像 下 面 这 样 创 建 集合 的 第 二 个 成 员 : 


$ ./redis-cli incr next.books.id 

32 (integer) 2 

$ ./redis-cli sadd books:2:title "Outliers" 
(integer) 1 

$ ./redis-cli sadd books:2:author "Malcolm Gladwell" 
(integer) 1 





books and tags.txt 


PAK incr HEISE RSIPACLTNARNA.S FE incrby 按 指 定 增 量 递增 ，dqecr 递减 ， 
decrby 按 指 定 增 量 递 减 。 如 果 和 需要 生成 序列 号 ， 像 它们 这 样 的 函数 都 是 非常 有 用 的 工具 。 可 以 
按 需 选择 适合 的 函数 并 定义 增 量 ， 目 前 用 incr 就 可 以 了 。 

接 下 来 ， 为 第 二 个 成 员 添 加 标签 ， 同 时 为 标签 建立 反问 关系 : 


$ ./redis-cli sadd books:2:tags 6 
y. (integer) 1 
$ ./redis-cli sadd books:2:tags 5 
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(integer) 1 

$ ./redis-cli sadd books:2:tags 4 
(integer) 1 

$ ./redis-cli sadd tag:4:books 2 
(integer) 1 

$ ./redis-cli sadd tag:5:books 2 
(integer) 1 

$ ./redis-cli sadd tag:6:books 2 
(integer) 1 





这 样 就 创建 了 两 个 虽然 很 基本 但 很 有 用 的 集合 成 员 ， 接 下 来 我 们 来 学 习 如 何 查询 集合 。 
3.1.5 “Redis 数 据 查 询 
我 们 来 继续 前 面 的 redis-cli 会 话 ， 先 列 出 集合 books 中 标识 为 1 的 成 员 的 书 名 和 作者 : 


$ ./redis-cli smembers books:1:title 

1. "The OmnivoreWXxe2Xx80Xx99s Dilemma" 
$ ./redis-cli smembers books:1:author 
1. "Michael Pollan" 


books and tags.txt 
书 名 字符 串 中 的 特殊 字符 代表 单 引号 。 
列 出 这 本 书 的 所 有 标签 





./redis-cli smembers books:l:tags 
. "gn 


$ 
1 
2s 
Su was 
4 
5 
6 


books and tags.txt 


主意 ,列表 中 标签 标识 符 的 顺序 和 它们 输入 时 的 顺序 不 同 , 这 是 因为 集合 没有 顺序 。 如 果 需 
和 青 使 用 有 序 集 合 。 
再 列 出 第 二 本 书 的 书 名 、 作 者 和 标签 ， 如 下 所 示 : 


./redis-cli smembers books:2:title 
"Outliers" 

./redis-cli smembers books:2:author 
"Malcolm Gladwell" 

./redis-cli smembers books:2:tags 
vg n 

YES 

vg 











J 


UJ) N) IS xx D) xr HB xr 


books and tags.txt 
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现在 再 从 标签 的 角度 来 看 ， 列 出 所 有 拥有 标签 1 的 图 书 : 


$ ./redis-cli smembers tag:1:books 
"1" 


标签 1 的 名 字 是 organic， 对 此 可 以 这 样 查询 : 


$ ./redis-cli smembers tag:1:name 
"organic" 


有 些 标签 ， 例 如 名 为 insight 的 标签 6， 集 合 中 两 本 书 都 添加 过 。 为 了 确认 ， 可 以 碍 询 集 
合 中 拥有 标签 6 的 图 书 ， 像 下 面 这 样 : 


$ ./redis-cli smembers tag:6:books 
1. wan 
2 . 72M 


接 下 来 列 出 所 有 同时 拥有 标签 1 和 标签 6 的 图 书 : 








./redis-cli sinter tag:1:books tag:6:books 





3 

FE 

命令 sinter 支持 查询 两 个 或 多 个 集合 的 交集 。 如 果 “ 交 集 ” 一 词 让 你 党 得 一 头 雾 水 ， 可 以 
查看 图 3-2 的 文 氏 图 。 


5 和 6 同时 属于 集合 A 和 B 
图 3-2 


P 1 和 书 2 都 有 标签 5 和 标签 6， 所 以 拥有 标签 5 的 网 书 集合 和 拥有 标签 6 的 图 书 集合 的 
sinter 应 该 同时 列 出 两 本 书 。 可 以 运行 sinter 命令 来 确认 ， 命 令 输入 如 下 : 
$ ./redis-cli sinter tag:5:books tag:6:books 


1l. vp 
2. wN 
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和 交集 一 样 ， 还 可 以 查询 并 集 和 差 集 。 图 3-3 和 图 3-4 演示 了 并 集 和 差 集 的 含义 。 


MERE NN 


[3-3 1,2,3,4,5, 6, 7f 8 (集合 A 和 B 的 所 有 成 员 ) 
同属 于 集合 A 和 集合 B 的 并 集 


| um 


图 3-4 ŽE A-B 包含 了 所 有 属于 A 但 不 属于 B 的 成 员 ， 
因此 A-B S 1, 2, 3 和 4 











要 创建 一 个 包含 标签 1 和 标签 6 的 图 书 并 集 ， 可 以 使 用 下 列 命 令 : 


$ ./redis-cli sunion tag:1:books tag:6:books 


ds 828 

DL 

书 1 和 2 都 拥有 标签 5 和 标签 6, 所 以 包含 标签 5 的 书 和 包含 标签 6 的 书 的 差 集 应 该 是 空 集 。 
让 我 们 看 看 是 不 是 这 样 : 


$ ./redis-cli sdiff tag:5:books tag:6:books 
(empty list or set) 
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这 些 命令 对 快速 查询 来 说 是 不 是 很 有 用? 不仅 如 此 ， 如 前 所 述 ，Redis 对 字符 串 值 、 列 表 、 
哈 硕 和 有 序 集合 也 支持 丰富 的 命令 。 不 过 我 们 暂时 先 跳 过 这 些 细 方 ， 继 续 下 一 个 NoSQL 存储 。 


所 有 Redis 命令 的 细节 都 会 在 本 书后 面 介 绍 。 


3.1.6 ”HBase 数 据 存储 与 访问 


HBase 是 当之无愧 的 NoSQL 旗手 。 它 是 Google Bigtable 的 开源 实现 ， 关 于 Google Bigtable 
的 更 多 内 容 请 访问 http://labs.google.com/papers/bigtable.html., 虽然 键 / 值 存储 和 其 他 非 关 系 型 存储 
( 比如 对 和 象 数 据 库 记 经 存在 一 段 时 间 了 ,但 真正 触发 Google 式 大 规模 NoSQL 成 功 的 , 正 是 HBase 
及 其 相关 的 Hadoop 工具 。 

HBase 不 是 唯一 的 类 Google Bigtable 产品 ，Hypertable 也 算 一 个 。HBase 也 不 是 适用 于 所 有 
情况 的 表格 数据 存储 。 像 Apache Cassandra 这 样 的 最 终 一 致 性 数据 存储 和 其 他 许多 产品 所 提供 的 
功能 , 都 超出 了 HBase。 不 过 在 讨论 HBase 的 适用 泡 围 之 前 , RIAZ F HBase 的 数据 存储 
及 查询 。 对 HBase 和 其 他 表格 数据 库 适 用 范围 的 讨论 会 在 稍 后 展开 。 

与 前 两 个 NoSQL 存储 类 似 ， 我 们 也 用 一 个 例子 来 解释 HBase 最 基本 的 内 容 ， 更 详细 的 架构 
讨论 则 留待 第 4 章 进 行 。 这 里 的 重点 是 数据 存储 与 访问 。 我 们 先 虚 构 一 个 博文 feed 的 例子 , 博文 
feed 里 包含 下 列 信息 : 

口 博文 标题 

a 博文 作者 

口 博文 内 容 或 主体 

口 博文 头 部 的 多 媒体 ( 例如 ， 一 幅 图 片 ) 

a 博文 主体 的 多 媒体 〈 人 例如， 一 幅 图 片 、 一 段 视频 或 者 一 个 音频 文件 ) 

为 了 存储 这 些 数 据 , 要 建 一 个 名 为 blogposts 的 集合 ,并 把 数据 分 成 两 类 保存 ,分 别 为 post 
和 multimedia 类 。JSON 格式 的 条 目 像 这 样 : 

( 























"post" s 1 
"title": "an interesting blog post", 
"author": "a blogger", 
"body": "interesting content", 


Fe 
"multimedia": { 
"header": header.png, 
"body": body.mpeg, 


blogposts.txt 


或 者 也 可 以 像 这 样 : 
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"post" : { 
"title": "yet an interesting blog post", 
"author": "another blogger”, 
"body": "interesting content", 


J; 
"multimedia": { 
"body-image": body image.png, 
"body-video": body video.mpeg, 
Ja 


blogposts.txt 


如 果 仔 细 查 看 两 个 样本 数据 会 发 现 , 它们 都 有 post M multimedia 类 别 , 但 不 一 定 是 后 
组 字段 , 换 句 话说 ,它们 的 列 不 同 ,。 用 HBase 的 话说 ,它们 具备 相同 的 列 族 post multimedia, 
但 是 没有 相同 的 列 。 实 际 上 multimedia 列 族 一 共有 四 列 ， 即 header, body, body-image 和 
body-video， 有 些 数 据 里 这 些 列 没有 值 ( null )。 在 传统 关系 型 数据 库 中 会 创建 所 有 这 四 列 ， 然 
后 根据 实际 情况 设置 值 为 空 。HBase 和 列 数 据 库 按 列 存储 数据 ， 空 值 不 需要 存储 ， 因 而 非常 有 利 
于 保存 稀 蚊 数据 集 。 

要 创建 数据 集 并 保存 这 两 条 数据 ， 前 先 启动 HBase 实例 并 用 HBase shell 连 上 它 。 运 行 在 分 
布 式 环境 中 的 HBase 专门 抽象 出 一 层 文 件 系 统 来 负责 保存 数据 到 多 台 机 六 上 。 不过, 在 这 个 简单 
的 例子 里 ，HBase 运行 在 一 个 独立 的 单 实例 环境 中 。 如 条 已 经 下 载 并 解压 了 最 新 版 的 HBase， 可 
以 通过 运行 bin/start-hbase.sh 局 动 默认 的 单 实例 服务 需 。 

服务 妖 启 动 运行 以 后 ， 启 动 一 个 shell 连接 HBase, Al P rzn : 

bin/hbase shell 


然后 创建 HBase 集合 blogposts, 其 中 包含 两 个 列 族 : post 和 multimedia， 如 下 所 示 : 


$ bin/hbase shell 

HBase Shell; enter 'help«RETURN»' for list of supported commands. 
Type "exit«RETURN»-" to leave the HBase Shell 

Version 0.90.1, r1070708, Mon Feb 14 16:56:17 PST 2011 








hbase(main):001:0» create 'blogposts', 'post', 'multimedia' 
O0 row(s) in 1.7880 seconds 


添加 两 条 数据 ， 如 下 所 示 : 


hbase(í(main):001:0» put 'blogposts', 'posti', 'post:title', 
hbase(main):002:0* 'an interesting blog post' 


0 row(s) in 0.5570 seconds 


hbase(main):003:0» put 'blogposts', 'posti', 'post:author', 'a blogger' 
0 row(s) in 0.0400 seconds 


hbase(main):004:0» put 'blogposts', 'posti', 'post:body', 'interesting content' 
0 row(s) in 0.0240 seconds 
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hbase(main):005:0» put 'blogposts', 'postl', 'multimedia:header', 'header.png' 
0 row(s) in 0.0250 seconds 
hbase(main):006:0» put 'blogposts', 'posti', 'multimedia:body', 'body.png' 
0 row(s) in 0.0310 seconds 
hbase(main):012:0» put 'blogposts', 'post2', 'post:title', 


hbase(main):013:0* 'yet an interesting blog post' 
0 row(s) in 0.0320 seconds 
hbase(main):014:0» put 'blogposts', 'post2', 'post:title', 


hbase(main):015:0* 'vet another blog post' 

0 row(s) in 0.0350 seconds 

hbase(main):016:0» put 'blogposts', 'post2', 'post:author', 'another blogger' 
0 row(s) in 0.0250 seconds 

hbase(main):017:0» put 'blogposts', 'post2', 'post:author', 'another blogger' 
0 row(s) in 0.0290 seconds 

hbase(main):018:0» put 'blogposts', 'post2', 'post:author', 'another blogger' 
0 row(s) in 0.0400 seconds 

hbase(main):019:0» put 'blogposts', 'post2', 'multimedia:body-image', 
hbase(main):020:0* 'body image.png' 

0 row(s) in 0.0440 seconds 

hbase(main):021:0» put 'blogposts', 'post2', 'post:body', 'interesting content! 
0 row(s) in 0.0300 seconds 

hbase(main):022:0» put 'blogposts', 'post2', 'multimedia:body-video', 
hbase(main):023:0* 'body video.mpeg' 


0 rowí(s) in 


0.0380 





seconds 





这 两 条 数据 分 别 标识 为 posti 和 post2。 细 心 的 读者 会 注意 到 , 在 输入 post2 的 标题 时 我 


犯 了 钳 ， 所 以 重新 输入 了 一 过。 我 还 重复 输入 了 三 过 同样 的 post2 作者 信息 。 在 关系 型 数据 库 

里 ， 这 些 都 是 数据 更 新 ， 不 过 在 HBase 里 ， 数 据 不 可 变 ， 重新 输入 数据 会 创建 数据 集 的 新 版 本 。 

这 样 做 有 两 个 好 处 : 避免 了 数据 更 新 的 原子 性 冲突 ; 存储 中 内 建 了 隐 式 的 版 本 系统 。 
存储 完 数 据 ， 接 着 我 们 写 些 基础 的 查询 来 获取 数据 。 











3.1.7 HBase 数 据 查询 


查询 HBase 存储 最 简单 的 办 法 是 通过 shell。 局 动 bin/hbase shell 并 连 上 本 地 HBase, 
准备 开始 查询 。 
要 得 到 所 有 与 posti 相关 的 数据 ， 可 以 这 样 查 询 : 
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hbase(main):024:0» get 'blogposts', 'posti' 


COLUMN CELL 

multimedia:body timestamp-1302059666802, 
value-body.png 

multimedia:header timestamp-1302059638880, 
value-header.png 

post:author timestamp-1302059570361, 
value-a blogger 

post:body timestamp-1302059604738, 
value-interesting content 

post:title timestamp-1302059434638, 


value-an interesting blog post 
5 row(s) in 0.1080 seconds 


blogposts.txt 


结果 列 出 posti 的 所 有 属性 和 值 。 要 获得 所 有 关于 post2 的 数据 ， 查 询 如 下 : 


hbase(main):025:0» get 'blogposts', 'post2' 


COLUMN CELL 
multimedia:body-image timestamp-1302059995926, 
value-body image.png 

multimedia:body-video timestamp-1302060050405, 
value-body video.mpeg 

post:author timestamp-1302059954733, 
value-another blogger 

post:body timestamp-1302060008837, 
value-interesting content 

post:title timestamp-1302059851203, 


value-yet another blog post 
5 rowí(s) in 0.0760 seconds 


blogposts.txt 





查询 只 包含 post1 的 标题 列 的 列表 : 


hbase(main):026:0» get 'blogposts', 'posti', { COLUMN-»'post:title' } 
COLUMN CELL 

post:title timestamp-13020594346038, 
value-an interesting blog post 

1 rowí(s) in 0.0480 seconds 


blogposts.txt 


还 记得 我 重新 输入 过 post2 的 标题 吗 ? 可 以 同时 查询 这 两 个 版 本 ， 如 下 所 示 : 


hbase(main):027:0» get 'blogposts', 'post2', ( COLUMN-»'post:title', VERSIONS=>2 } 


COLUMN CELL 

post:title timestamp-1302059851203, 
value-yet another blog post 

post:title timestamp-1302059819904, 


value-yet an interesting blog post 
2 row(s) in 0.0440 seconds 


blogposts.txt 
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HBase 默认 只 返回 最 新 版 本 ,不 过 如 果 你 愿意 ， 可 以 要 求 返回 多 个 版 本 , 或 者 返回 某 个 特定 
的 旧版 本 。 
看 过 这 些 人 简单 的 查询 后 ， 我 们 进入 最 后 一 个 数据 存储 的 例子 ，Apache Cassandra. 


3.1.8 Apache Cassandra 数 据 存储 与 访问 


ix— T4338 HH. E— 1 8J blogposts 样 例 来 展示 Apache Cassandra 的 一 些 基本 特性 。 前 面 草 
节 中 ， 我 们 初步 了 解 过 Apache Cassandra， 下 面 继 续 介 绍 它 的 更 多 特性 。 
首先 ， 在 Apache Cassandra 的 目录 里 以 前 台 方 式 启 动 服务 器 ， 运 行 命令 如 下 : 


bin/cassandra -f 

Ri d SIEUH,. i511 cassandra-cli 或 命令 行 客 户 端 ， 如 下 所 不 : 

bin/cassandra-cli -host localhost -port 916C 

Trin HER, "UH PHI: 

show keyspaces; 

你 会 看 到 系统 和 其 他 已 经 创建 好 的 键 空 间 。 在 前 一 章 中 ， 我 们 创建 了 一 个 名 为 
CarDataStore 的 键 空间 。 现 在 用 下 面 的 脚本 创建 新 的 键 空间 BlogPosts. 


/*schema-blogposts.txt*/ 

















create keyspace BlogPosts 
with replication factor - 1 
and placement strategy = 'org.apache.cassandra.locator.SimpleStrategy'; 


use BlogPosts; 


create column family post 
with comparator - UTF8Type 
and read repair chance = 0.1 
and keys cached - 100 
and gc grace = 0 
and min, compaction, threshold 
and max compaction threshold 


create column family multimedia 
with comparator = UTF8Type 
and read repair chance = 0.1 
and keys, cached - 100 
and gc grace = 0 
and min compaction threshold 
and max compaction threshold 


schema-blogposts.txt 


Pe PAESI ES XCEEHP BUD : 
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Cassandra» use BlogPosts; 


























Authenticated to keyspace: BlogPosts 

cassandra» set post['postl']['title'] = 'an interesting blog post'; 
Value inserted. 

cassandra» set post['postl']['author'] = 'a blogger'; 

Value inserted. 

cassandra» set post['posti']['body'] = 'interesting content'; 

Value inserted. 

cassandra» set multimedia['posti']['header'] = 'header.png'; 

Value inserted. 

cassandra» set multimedia['posti']['body'] = 'body.mpeg'; 

Value inserted. 

cassandra» set post['post2']['title'] = 'yet an interesting blog post'; 
Value inserted. 

cassandra» set post['post2']['author'] = 'another blogger'; 

Value inserted. 

cassandra» set post['post2']['body'] = 'interesting content'; 

Value inserted. 

cassandra» set multimedia['post2']['body-image'] = 'body image.png'; 
Value inserted. 

cassandra» set multimedia['post2']['body-video'] = 'body video.mpeg'; 


Value inserted. 


cassandra blogposts.txt 


到 这 里 ， 样 例 就 准备 好 了 。 接 下 来 查询 BlogPosts 键 空间 的 数据 。 





.9 Apache Cassandra 数 据 查询 


假设 你 已 经 登录 进 cassandra-cli， 当 前 使 用 的 是 BlogPosts 键 空 间 ， 那 么 可 以 查询 


Post1 的 数据 ， 如 下 所 示 : 


get post['post1i']; 

=> (column-author, value-6120626c6f67676572, timestamp-1302061955309000) 

=> (column-body, valuez696e74657265737469666720636tf6e74656674, 
timestamp-1302062452072000) 

=> (column-title, valuez616e20696e746572657374696e6e6720626c6f6720706£f7374, 
timestamp-1302061834881000) 

Returned 3 results. 


cassandra blogposts.txt 


你 也 可 以 查询 multimedia 列 族 中 post2 的 列 body-video。 查 询 和 输出 类 似 下 面 这 样 : 


get multimedia['post2']['body-video']; 
=> (column-body-video, value-z626f64795£766964656£2e638706567, 
timestamp-1302062623668000) 


cassandra blogposts.txt 
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3.2 NoSQL 数据 存储 的 语言 绑 定 


尽管 用 命令 行 客户 问 访 问 和 查询 NoSQL 数据 存储 非常 方便 快捷 ， 但 在 实际 应 用 中 可 能 需要 
用 编程 语言 接口 来 访问 NoSQL, NoSQL 数据 存储 的 类 型 及 风格 不 同 ， 编 程 接 口 和 驱动 的 类 型 也 
有 所 不 同 。 不 过 一 般 情 况 下 ， 对 使 用 诸如 Python, Ruby, Java 和 PHP 这 样 的 高 级 编程 语言 访问 
NoSQL 存储 都 有 足够 的 文 持 。 丁 介绍 出 色 的 代码 生成 融 Thrift 和 一 些 优秀 的 语言 特定 的 驱动 及 
类 库 。 本 的 目的 不 在 详尽 上 覆盖 所 有 类 库 ， 而 在 于 帮助 你 掌握 如 何 使 用 最 喜欢 的 编程 语言 和 
NoSQL 交互 。 


























3.2.1 Thrift 


Apache Thrift 是 开源 的 跨 语 言 的 服务 开发 框架 。 它 是 代码 生成 引擎 ， 用 来 创建 能 够 与 多 种 编 
程 语言 交互 的 服务 。Facebook 开发 了 Thrift， 而 后 开源 。 

Thrift 用 C 写成 。 要 构建 、 安 装 、 使 用 和 运行 Thrift， 请 按照 下 列 步 又 操作 。 

(1) F Thrift, HHE: http://incubator.apache.org/thrift/download/; 

(2) 解压 源 代 码 。 

(3) 按照 老 办 法 构建 和 安装 Thrift, BAT configure, make 和 make install. 

(4) 编写 Thrift 服务 定义 。 这 是 Thrift 中 最 重要 的 部 分 ， 它 是 用 来 生成 代码 的 底层 定义 。 

(5) 使 用 Thrift 编译 副 生 成 特定 语言 的 代码 。 

一 切 准 备 就 绕 。 接 下 来 ， 运行 Thrift 服务 器 并 用 Thrift 客户 端 连 上 服务 器 。 

对 类 似 Apache Cassandra 这 样 支持 Thrift 的 NoSQL 存储 , 或 许 不 需要 生成 Thrift 27 vg, M 
是 耳 接 选择 一 个 特定 语言 的 客户 问 ， 人 然后 客户 问 再 利用 Thrift。 下 面 几 个 小 方 介绍 一 些 特 定数 据 
存储 的 多 种 语言 绑 定 。 














3.2.2 Java 





作为 一 门 “无 所 不 在 ”的 编程 语言 ，Java 或 许 已 形 失 香 日 的 辉 焊 ， 但 依旧 流行 或 者 说 普及 。 
7k H4rzH MongoDB 和 HBase 的 Java 驱动 及 类 库 。 

MongoDB 官 方 文 持 Java 驱 动 。 下 载 驱 动 和 了 解 更 多 相关 内 容 ， 请 访问 : www.mongodb.org/ 
display/DOCS/Javat+Languaget+Center。 这 个 驱动 只 包含 一 个 JAR 文 件 ， 编 写本 书 时 ， 最 近 的 版 本 
号 是 2.5.2”。 下 载 完 JAR 文 件 以 后 ， 只 要 把 它 添加 到 应 用 的 classpath 里 就 可 以 使 用 了 。 

前 面 曾 在 MongoDB 实例 中 创建 过 一 个 logdata 集合 。 要 用 Java 驱动 连 上 数据 库 并 列 出 集 
合 中 的 所 有 元 素 ， 可 以 参照 代码 清单 3-2 的 代码 实现 。 








CD 翻译 本 书 时 ，MongoDB 的 Java 驱动 的 最 新 版 本 是 2.8.0。 一 一 译 者 注 
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. 代码 清单 3-2 列 出 MongoDB 集合 logdata 中 所 有 元 素 的 Java 程序 


import com.mongodb.DB; 

import com.mongodb.DBCollection; 
import com.mongodb.DBCursor; 
import com.mongodb.Mongo; 


public class JavaMongoDBClient { 





Mongo m; 
DB db; 
DBcCollection coll; 


public void init() throws Exception { 
m = new Mongo( "localhost" , 27017 ); 
db = m.getDB( "mydb" ); 
coll = db.getcollection('"logdata'j; 

} 


public void getLogData() { 
DBOursor cur = eoll.find(); 


while(cur.hasNext()) { 
System.out.printlin(cur.next()); 
} 
} 


public static void main(String[] args} { 
er 
JavaMongoDBClient javaMongoDBClient = new JavaMongoDBClient(); 
javaMongoDBClient.inití(); 
javaMongoDBClient.getLogDataí(); 


) catch(Exception e) { 


e.printStackTrace(); 


} 


javaMongoDBClient.java 





使 用 Java 与 MongoDB 交互 非常 简单 方便 ， 不 是 吗 ? 

接 下 来 是 HBase。 要 查询 HBase 中 已 经 创建 好 的 blogposts 集合 ,首先 找到 下 列 JAR 文件 
并 把 它们 添加 到 classpath 中 。 

Q commons-logging-1.1.1.jar 

Q hadoop-core-0.20-append-r1056497 jar 

Q hbase-0.90.1.jar 

Q 1og4j-1.2.16.jar 

代码 清单 3-3 的 程序 列 出 了 blogposts 中 posti 的 标题 和 作者 。 
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F 代码 清单 3-3 ”连接 和 查询 HBase 的 Java 程序 


import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.io.RowResult; 


import java.util.HashMap; 
import java.util.Map; 
import java.io.IOException; 


public class HBaseConnector { 


public static Map retrievePost(String postId) throws IOException { 
HTable table = new HTable(new HBaseConfiguration(), "blogposts"); 
Map post = new HashMapí); 


RowResult result = table.getRow(postId); 


tor (byte[] column : result.keySet()) { 
post.put(new String(column), new String(result.get(column).getValue())); 


} 


n post; 


public static void main(String[] args) throws IOException { 
Map blogpost = HBaseConnector.retrievePost("postl"); 
System.out.printlin(blogpost.getí("post:title")); 
System.out.println(blogpost.getí("post:author")); 

j 

j 


HbaseConnector.java 


看 过 Java 的 两 个 代码 样 例 后 ， 我 们 继续 进入 下 一 种 编程 语言 : Python。 


3.2.3 Python 


前 面 MongoDB 的 日 志 数 据 样 例 中 曾 用 过 Python, 这 里 再 介绍 另外 一 个 Python 的 例子 。 这 一 
次 ， 用 Pycassa 来 实现 Python 与 Apache Cassandra 的 交互 。 

首先 , 从 http://github.com/pycassa/pycassa 获取 Pycassa 并 安装 到 本 地 的 Python 环境 中 。 安装 
完成 后 ， 像 下 面 这 样 导 人 Pycassa: 

import pycassa 

接 者 ， 连 接 本 地 Cassandra 服务 帮 (一 定 记 得 先 启 动 服务 器 )。 像 这 样 连 接 服务 规 : 

connection = pycassa.connect('BlogPosts'; 

连 上 以 后 ， 可 以 获取 post 列 族 : 

column family = pycassa.ColumnFamily(connection, 'post'; 


然后 调用 get () 方 法 来 获取 列 族 中 所 有 列 的 数据 : 
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column family.get() 


可 以 把 行 键 作 为 参数 传人 get () 方 法 ， 这 样 可 以 只 输出 行 键 对 应 的 列 。 
3.2.4 Ruby 


针对 Ruby, 我 选择 用 Redis 客户 并 的 例子 来 介绍 。Redis 数据 集 里 包含 了 图 书 和 关联 的 标签 。 
首先 ， 复 制 redis-rp git 库 ， 构 建 redis-rb， 如 下 所 示 : 


git clone git://github.com/ezmobius/redis-rb.git 
cd redis-rb/ 

rake redis:install 

rake dtach:install 

rake redis:start & 

rake install 


或 者 也 可 以 这 样 安 装 Redis gem: 

sudo gem install redis 

安装 好 redis-rb 以 后 ， 打 开 一 个 irb (interactive ruby console, AZ HX ruby 命令 行 ) 会 话 ， 
然后 连接 和 查询 Redis。 

首先 ， 使 用 require 命令 导入 rubygems 和 Redis， 如 下 所 示 : 


irb(main):001:0» require 'rubygems' 
=> true 

irb(main):002:0» require 'redis' 

=> true 


BU. WE Redis 服务 人 正在 运行 ， 然 后 实例 化 一 个 Redis 对 象 来 连接 服务 般 ， 如 下 所 未: 


irb(main):004:0> r = Redis.new 
=> #<Redis client v2.2.0 connected to redis://127.0.0.1:6379/0 (Redis v2.2.2)» 


接 下 来 ， 列 出 books 集合 中 标识 为 1 的 图 书 的 所 有 标签 : 


irbí(main):006:0» r.smembers('books:1:tags'; 
=> ["3", uam. TO "EY, wjn, w2] 


列 出 同时 拥有 标签 5 和 标签 6 的 所 有 图 书 〈 参考 本 章 前 面 的 例子 ): 


irb(main):007:0» r.sinter('tag:5:books', 'tag:6:books'; 
= ["1", "2"] 


除 此 之 外 , 还 能 运行 许多 更 高 阶 的 查询 ， 步 又 都 非常 简单 。 下 面 要 介绍 的 最 后 一 个 例子 使 用 
PHP 来 与 NoSQL 交互 。 























3.2.5 PHP 


Pycassa 是 在 Thrift 上 提供 了 一 层 Python 封 次 ， 和 它 一 样 ，phpcassa 在 Thrift 上 提供 了 一 层 
PHP 封 痛 。 可 以 在 http://github.com/hoan/phpcassa 下载 phpcassa。 
有 了 phpcassa， 要 查询 BlogPosts 集合 post 列 族 的 所 有 列 只 需 几 行 代码 ， 像 下 面 这 样 : 
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<?php // Copy all the files in this repository to your include directory. 
SGLOBALS['THRIFT ROOT'] = dirname( FILE ) . '/include/thrift/'; 

require once SGLOBALS['THRIFT ROOT'].'/packages/cassandra/Cassandra.php'; 
require once SGLOBALS['THRIFT ROOT'].'/transport/TSocket.php'; 
require once S$GLOBALS['THRIFT ROOT'].'/protocol/TBinaryProtocol.php'; 
require once SGLOBALS['THRIFT ROOT']. 

[ 


'/transport/TFramedTransport.php'; 
require once SGLOBALS['THRIFT ROOT'].'/transport/TBufferedTransport.php'; 
include onceí(dirname( FILE ) . '/include/phpcassa.php'); 
include once(dirname( FILE ) . '/include/uuid.php'); 
$posts = new CassandraCF('BlogPosts', 'post'); 
$posts -»getí); 

?> 


phpcassa example.php 


学 习 完 这 个 例子 之 后 ， 我 们 来 回顾 一 下 本 章 所 学 的 内 容 ， 并 继续 了 解 有 关 NoSQL schema 的 
更 多 内 容 。 





Y 


3.3 小结 


本 章 介 绍 了 NoSQL 交互 、 访 问 与 查询 的 基本 概念 。 样 例 中 用 到 了 四 种 具有 代表 性 的 NoSQL 
存储 : MonogDB, Redis, HBase 和 Apache Cassandra。 通 过 样 例 演示 了 如 何 用 它们 存储 、 访 问 类 
哈 希 结构 或 表格 结构 的 数据 。 

之 后 解释 了 各 种 查询 方法 , 它们 大 都 用 简单 的 命令 行 客 户 疹 完成 。 最 后 几 世 介绍 了 语言 绑 定 
以 及 Java, Python, Ruby 和 PHP 客户 端 类 库 。 对 类 库 的 履 盖 还 不 够 详尽 ， 不 过 足以 人 门 ， 而 且 
能 满足 大 多 数 基 本 操作 的 需要 。 接 下 来 一 章 将 介绍 NoSQL 结构 以 及 元 数据 的 相关 概念 和 知识 。 
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«n 
理解 存储 架构 


本 章 内 容 

Q 面 癌 列 数据 库 的 存储 架构 

口 文档 数据 库 内 部 机 制 

口 键 / 值 缓存 和 磁盘 存储 的 键 / 值 

口 文 持 最 终 一 致 性 的 列 族 数 据 集 的 schema 








问 列 数据 库 是 最 流行 的 一 种 非 关 系 型 数据 库 。Google 令 人 和 敬佩 的 工程 努力 使 其 一 举 成 
名 ， 而 Facebook, LinkedIn 和 Twitter 等 社交 了 网络 巨头 的 发 展 则 使 它们 更 加 流行 ， 说 它 
们 是 NoSQL 音 命 的 旗手 ， 一 点 都 不 伟 张 。 尽 管 在 学 术 界 列 数据 库 已 经 存在 多 年 ， 形 式 多 样 ， 不 
过 直到 以 下 几 篇 Google 研究 论文 的 发 表 ， 它 们 才 被 引入 开发 社区 。 
口 The Google File System, http://labs.google.com/papers/gfs.html ( 2003 Œ 10 H )。 
Q MapReduce: Simplified Data Processing on Large Clusters, http://labs.google.com/papers/ 
mapreduce.html ( 2004 4E 12 H )。 
Q Bigtable: A Distributed Storage System for Structured Data, http://labs.google.com/papers/ 
bigtable.html ( 2006 4E. 11 H ). 
这 些 论文 介绍 了 Google 搜索 引擎 的 成 功 秘 雇 ， 前 明了 诸如 Google Earch, Google Analytics 
和 Google Maps 等 大 规模 及 大 数据 产品 背后 使 用 的 技术 。 过 去 人 们 怀疑 ， 能 否 用 大 量 廉价 硬件 组 
成 集群 来 存储 海量 数据 〈 远 远 超 过 一 合 机 融 的 承载 量 )， 同 时 保证 数据 在 合理 的 时 间 范 围 内 得 到 
局 效 处 理 。Google 的 论文 回答 了 人 们 的 疑问 ， 其 中 包括 3 个 关键 主题 : 
a 数 据 存 储 应 使 用 网 络 文件 系统 ， 系 统 要 能 扩展 到 多 合 机 各 上。 文件 本 喘 可 能 非常 大 ， 得 
存储 在 多 个 市 点 上 ， 每 个 市 点 运行 在 不 同 的 机 癌 上 。 
a 数据 存储 结构 应 具备 多 种 特性 。 比 传统 的 规范 化 关系 型 数据 结构 具有 更 好 的 灵活 性 ， 能 
局 效 存储 海量 黎 玖 数据 ， 能 够 适应 结构 的 不 断 调整 ， 同 时 还 不 用 更 改 的 层 表 。 
OQ 数据 处 理 方式 应 文 持 在 互相 隅 离 的 数据 子 集 上 执行 计算 ， 然后 再 合并 计算 结 来 ， 最 后 生 
成 所 需要 的 输出 。 如 来 算法 放 到 数据 所 在 地 去 执行 ， 就 能 提 高 计算 效 座 。 当 处 理 海量 数 
据 运算 时 ， 还 能 避免 在 网 络 上 传输 大 量 数据 。 
Google 分 享 的 内 容 和 智者 之 言 , 如 同 雨 露 浇 灌 痢 开源 的 沃土 , 大 量 开 源 产 品 如 两 后 春 筹 般 破 
十 而 出 ,诞生 出 了 一 批 邻 人 瞩目 的 面 回 列 数据 库 产 品 。 其 中 最 有 名 的 非 Apache Hadoop KjB, € 
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如 同一 面 镜子 ,映射 出 了 Google 基础 架构 的 完整 轮廓 。2004 年 至 2006 年 间 ,开源 搜索 引擎 Lucene 
和 Nutch 的 创始 人 Doug Cutting 发 起 了 Hadoop 项 目 ， 早 期 目的 是 要 解决 在 开发 Nutch if Pih 
到 的 扩展 性 问题 。 后 来 ， 在 Yahoo! 的 工程 师 、 一 些 开 源 贡 献 者 以 及 Hadoop 早期 用 户 的 支持 下 ， 

Hadoop 逐渐 成 熟 ， 变 成 了 一 个 可 以 在 生成 环境 中 正式 使 用 的 平台 。 与 此 同时 ，NoSQL 运动 也 不 
断 积蓄 力量 ， 涌 现 出 大 量 代替 Hadoop 的 选择 ， 有 些 还 在 原 有 模型 基础 上 进行 了 改进 。 这 些 产品 
H, 大 多 数 都 没有 重新 发 明 网 络 文件 系统 ， 或 是 数据 处 理 的 方法 论 ， 而 是 在 列 数据 存储 的 功能 列 
RE, 添加 了 属于 自己 的 功能 。 在 下 面 的 章节 里 , 我 们 会 学 习 这 些 面向 列 数据 库 的 底层 基础 知识 。 

















Doug Cutting 的 演示 稿 中 记录 了 Hadoop 的 发 展 简 史 ， 要 获取 该 文档 请 访 
i]: http://research.yahoo.com/files/cutting.pdf, 






4.1 使 用 面向 列 的 数据 库 


Google Bigtable 和 Apache HBase ( Hadoop 的 一 部 分 ) 都 属于 面 回 列 数据 库 ，Hypertable 和 
Cloudata 也 是 如 此 。 它 们 各 不 相同 ， 但 有 痢 共同 的 基础 。 本 节 中 ， 我 会 解释 这 些 定 义 它 们 的 基础 
概念 。 

在 今天 这 一 代 开 发 者 的 大 脑 里 , 关系 型 数据 库 系统 的 概念 早已 根深 带 固 。 关 系 型 数据 库 管理 
系统 (RDBMS ) 是 我 们 在 大 学 里 学 到 的 、 工 作 中 用 到 的 、 经 常 读 到 和 讨论 的 概念 ， 其 中 最 根本 
的 概念 ( 比如 实体 和 它们 之 间 的 关系 ) 已 经 成 为 数据 库 概 念 不 可 分 割 的 组 成 部 分 。 所 以 ,我 们 首 
ICM RDBMS 的 视角 出 发 , 来 解释 面 辐 列 数据 库 ， 这样 大 家 会 感觉 千 适 目 然 。 然后， 我们 再 从 了 映 
射 表 也 就 是 键 / 信 对 的 角度 ， 重 新 解 谈 一 过 。 


4.1.1 使 用 关系 型 数据 库 中 的 表格 和 列 


Æ RDBMS 里 , 实体 的 属性 存储 在 表格 的 列 中 。 列 预先 定义 好 ， 元素 或 行 记录 的 所 有 值 存储 
在 表格 的 所 有 列 中 。 如 图 4-1 所 示 。 

这 个 例子 中 的 表格 有 5 列 。 在 RDBMS 中 存储 这 个 表 时 ， 要 定义 每 列 的 数据 类 型 。 比 如 ， 名 
字 列 设 为 VARCHAR 类 型 ( 变 长 字符 类 型 )， 而 ZIP 列 设 为 整数 类 型 ( 在 美国 所 有 ZIP 代号 都 是 
整数 ), 单 元 格 可 设 空 值 ( 即 NULL ), 例 如 ,Jolly Goodfellow 这 个 名 字 里 没 有 中 间 名 ( middle name ), 
则 中 间 名 一 列 的 值 为 NULL。 

通常 情况 下 , 一 个 RDBMS 表格 会 有 不 少 列 ， 有 时 有 几 十 列 ， 表 格 里 可 多 达 几 千 条 记录。 有 
时 表格 里 保存 了 数 百 万 行 记录 , 但 是 保存 这 么 大 量 的 数据 可 能 导致 数据 访问 阻塞 ,除非 引入 一 些 
特殊 的 做 法 ， 比 如 去 规范 化 。 

表格 里 存 进 数据 以 后 ,往往 需要 修改 表格 ， 新 增 一 些 属性 。 这 些 属性 可 能 是 街道 地 址 ， 或 者 
食物 喜好 。 添 加 完 新 属性 ， 再 存储 新 数据 ， 新 属性 带 上 了 值 , 但 是 老 记录 里 新 属性 的 值 可 能 就 是 
null, ABC, TERRE, ILS. (大量 单 元 格 值 为 null) 的 可 能 性 就 越 大 。 了 下 
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IAEA PIEZA], KARER ENIRA 4-2 这 样 。 





TNN 
s eje 
4-1 


NULL 


Ajay 








现在 , 假设 数据 不 断 变 化 ,而 你 要 随 之 保存 单元 格 每 个 版 本 的 值 。 想 象 一 个 三 维 Excel 表格 ， 
第 三 维 是 时 间 。 值 的 每 个 版 本 依次 放 入 按时 间 排 列 的 表格 。 浏 览 一 下 网 4-3， 让 目 己 沉浸 于 三 维 
Excel 表格 的 抽象 之 中 吧 。 











灵 社 区 会 员 DanyLee 专 享 尊重 版 权 


4.] 使 用 面向 列 的 数据 库 65 


同一 集合 
d 中 不 同时 
/ 间 的 值 n 
共和 党 Mer 《者 











虽然 这 个 例子 很 傈 单 ,， 有 人 可 能 已 经 意识 到 ,按照 数据 的 变化 修改 表 绪 构 ,， 存储 大 量 黎 琉 数 
据 ， 使 用 不 同 版 本 的 值 ， 这 些 事 情 可 能 很 复杂 。 更 准确 地 说 ， 用 RDBMS 处 理 可 能 变 得 很 复杂 ! 
这 些 困难 你 大 抵 也 经 历 过 吧 。 


4.1.2 ” 列 数 据 库 对 比 RDBMS 


下 面 ， 介 绍 用 列 数据 库 来 完成 同一 个 例子 的 建 模 和 存储 。 前 面 有 了 RDBMS， 两 相 比 较 ， 列 
数据 库 的 主要 特点 日 然 会 更 加 明显 。 

首先 ， 面 问 列 数据 库 最 小 化 了 前 期 schema 定义 的 需求 ,后 期 随 着 数据 的 发 展 ， 可 以 很 容易 
地 添加 新 列 。 在 一 般 的 面 徊 列 数据 库 中 ， 预 完 定义 列 族 而 不 是 列 。 列 族 是 成 组 的 列 ， 各 成 员 侦 
辑 上 相互 关联， 但 无 强制 要 求 。 列 族 成 员 物 理 上 存储 在 一 起 ,访问 特征 相似 的 列 加 入 同一 个 列 
族 对 用 户 是 有 好 处 的 。 可 定义 的 列 族 总 数 ， 就 算 理 论 上 存在 限制 ， 也 不 会 很 大 ,不 过 控制 列 数 ， 
保持 最 小 量 ， 有 助 于 维持 schema 的 可 延展 性 。 在 这 个 例子 里 ， 定 义 姓名 、 地 址 、 偶 好 三 个 列 族 
NLUS D. 

列 数据 库 里 的 列 族 与 RDBMS 里 的 列 相 似 。 两 者 部 是 在 数据 存储 到 表 里 之 前 就 定义 好 了 ,并 
且 本 质 上 相对 保持 静态 。RDBMS 里 的 列 定义 了 要 存储 的 数据 类 型 ， 而 列 族 没 有 。 列 族 可 以 包括 
任意 多 个 列 ， 列 可 以 存储 任意 类 型 数据 ， 上 只 要 数据 可 以 保存 为 字 节 数组 就 行 。 

面 问 列 数 据 库 表 里 ， 只 有 在 列 值 有 效 时 , 才 会 存储 到 行 中 。Null 值 不 会 被 存储 。 下 图 4-4 中 ， 
为 了 适应 列 存储 模型 ， 对 例子 做 了 适当 的 修改 。 
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first name=>"...", 
last name=>"..." 





VEZ ERR. IAOEE T AIAT AEBJAIGS AC, 还 为 每 个 单元 格 的 数据 保存 多 个 
版 本 。 因 此 ， 如 有 果 不 断 地 改变 样 例 数据 ， 数 据 就 会 存储 到 列 数据 库 中 ， 如 图 4-5 所 示 。 
时 间 姓名 地 址 偏好 


first name=>"...", 
last name=>"..." 








在 物理 存储 方面 ,数据 并 不 是 按 表 存储 的 ， 而 是 按 列 族 存 储 的 。 列 数据 库 是 为 可 扩展 性 设计 
的 ， 可 以 轻松 容纳 数 百 万 列 和 数 十 亿 行 。 因 此 ， 单 表 和 冲冲 存储 在 多 人 台 机 带 上 。 行 键 唯 一 标识 列 
数据 库 中 的 一 行 记录 。 行 记录 是 有 序 的 ， 随 春 增长 ， 数 据 会 被 分 割 成 组 ， 组 里 包含 了 连续 的 值 。 
图 4-6 对 数据 的 实际 存储 方式 做 了 非常 接近 的 摘 述 。 

列 数据 库 通常 部 署 在 集群 上 ,不 过 为 了 开发 和 实验 ,也 可 以 在 单 节点 上 运行 列 数据 库 。 不 同 
的 列 数据 库 一 般 部 有 不 同 的 网 络 拓扑 和 部 署 染 构 , 但 是 只 要 深 人 学 习 其 中 任何 一 个 , 就 可 以 了 解 
其 余 了 。 














A 本 章 稍 后 的 4.2 节 中 将 介绍 HBase 架构 ， 讲 述 更 多 有 关 典 型 部 署 的 内 容 。 
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行 键 时 间 姓名 











图 4-6 
4.1.3 ” 列 数据 库 当 做 键 / 值 对 的 能 套 映射 表 


把 列 数 据 库 当 成 具有 特殊 属性 的 表 ， 虽 然 很 好 理解 ,但 是 容易 产后 混 靖 。 列 、 表 这 样 的 术语 
能 让 人 瞬间 想到 关系 型 数据 库 知 识 ， 进 而 按 此 规划 schema。 要 中 这 么 做 ， 那 就 算是 被 市 进 沟 里 
去 了 ,而 且 第 第 有 反复 往 沟 里 跳 ， 和 直 把 列 数据 库 当 关系 型 数据 库 使 ,还 乐此不疲 。 这 正 是 一 个 逢 要 
避免 的 设计 误区 。 时 刻 谨 记 , 使 用 正确 的 工具 解决 问题 比 工 具 本 号 更 重要 。 如 末 RDBMS 符合 需 
要 ， 那 就 用 它 。 但 如 宁 要 用 列 数 据 库 扩 展 数据 存储 ， 那 就 别 背 上 RDBMS 的 包 裕 。 

通 ， 把 列 数据 库 看 成 葵 套 的 映射 表 更 容 多 理解。 映射 表 ， 或 哈 硕 映射 表 ， 又 称 关联 数组 ， 
是 键 及 其 对 应 值 组 成 的 二 元 组 。 键 要 保持 唯一 以 避免 冲突 , 值 可 以 是 任何 字 记 数组 。 有 些 映 射 表 
只 存储 字符 串 类 型 的 键 / 值 ， 不 过 大 多 数列 数据 库 没 有 这 种 限制 。 

















图 灵 社 区 会 员 DanyLee HF 尊重 版 权 


68 BAÈ 理解 存储 架构 


现代 列 数据 库 的 灵感 来 源 于 Google BigTable， 其 官方 定义 为 稀 臣 的 、 分 布 式 的 、 持 久 化 的 、 
ZEWA BART o 





A “Bigtable: A Distributed Storage System for Structured Data,” Fay Chang, et al. 
OSDI 2006, http://labs.google.com/papers/bigtable-osdi06.pdf. 第 二 节 “ 数 据 模 型 ” 
里 这 样 定义 Bigtable: “Bigtable 是 稀 朴 的 、 分 布 式 的 、 持 久 化 的 、 多 维 的 有 序 
映射 表 。 映 射 表 的 索引 包括 行 键 、 列 键 和 时 间 鹤 ; 映射 表 中 的 每 个 值 都 是 原始 
的 字 节 数组 。 





来 看 一 个 多 维 般 套 映 射 表 的 例 季 ， 头 两 层 键 用 类 JSON 形式 表示 如 下 : 
{ 
"row key 1" : { 
"name" : { 


t L 
"location" e { 


) 


F 
"preferences" : { 


Ja 
"location" € { 


+... 


F 
"preferences" : { 


最 外 层 的 键 是 行 键 ， 唯 一 标识 列 数 据 库 中 的 一 条 记录 。 第 二 层 键 是 列 族 标识 。 前 面 一 共 定 义 
本 三 个 列 族 , 包括 姓名 、 位 置 和 仿 好 。 它 们 虱 是 第 二 层 键 。 如 此 下 去 ,你 可 能 已 经 猪 到 第 三 层 键 
是 列 标识 符 。 由 于 各 行 拥 有 ( 同一 列 族 的 ) 的 列 可 能 不 同 , 因此 任意 两 行 数据 第 三 层 的 键 可 能 会 
不 同 。 加 入 第 三 层 键 ， 映 射 表 看 上 去 就 会 像 这 样 : 

( 

















"row key 1" : { 
"name" : { 
"first name" : "Jolly", 
"Last name" : "Goodfellow" 


} 
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} 
Fo 
"location" : { 
"zip" T945301* 
la 
"preferences" : { 
Mg v gw ap" 
} 
Fa 
"row_key_2" : { 
"name" : { 
"first name" : "Very", 
"middle name" : "Happy", 
"last name" : "Guy" 
Ja 
"location" e i 
tazin" s wIO00I 
T 
"preferences" : ( 
"eme "V" 
} 
la 





最 后 ,再 加 入 版 本 ,第 三 层 可 以 包含 时 间 惟 版 本 号 。 为 了 表示 这 个 版 本 , 使 用 任意 整数 来 表 
示 时 间 鹤 版 本 号 ， 然 后 编 个 故事 ,说 Jolly Goodfellow 在 时 刻 1 宣布 了 他 的 民主 倾向 ， 然 后 在 时 
刻 $ 又 改变 他 的 政治 铂 别 为 共和 党。 这 行 数 据 的 映射 表 看 起 来 像 这 样 : 


{ 
"row key 1" : { 
"name" : { 
"first name" : ( 
1 : "Jolly" 
P 
"last name" : { 
1: "Goodfellow" 
] 
la 
"location" : { 
"Le 4 
l1 : "94301" 
} 
la 
"preferences" : { 
"d/r" : { 
L e D; 
5 a "R" 
} 
} 
E 
} 
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以 上 展现 的 是 从 映射 表 角 度 看 列 数据 库 时 所 呈现 出 的 了 画面。 如 果 和 觉得 样 例 不 够 详细 ,还 可 以 
阅读 Jim Wilson 的 文 草 ， 标 题 是 “Understanding HBase and Bigtable” ( 理解 HBase 和 Bigtable ), 
地 址 是 http://jimbojw.com/wiki/index.php?title-Understanding Hbase and BigTable。 


4.1.4 Webtable 布 局 


Webtable 用 来 存储 抓 取 到 的 网 页 副本 ， 如果 放 看 这 个 经 典 案 例 不 谈 , 那 对 列 数据 库 的 讨论 肯 
定 是 不 完整 的 。Webtable 表格 中 存储 网 页 内 容 以 及 页 面相 关 属 性 。 这些 属 性 可 以 是 引用 页 面 的 销 
点 ， 或 者 内 容 的 MIME 类 型 。 这 个 例子 第 一 次 出 现 是 在 Google AXR Bigtable 的 人 研究 论文 里 。 
Webtable 使 用 网 页 的 反 向 URL TETTEE , z? URL 为 www.example.com, 则 对 应 行 键 com.example.www。 
面 癌 列 数据 库 中 行 键 决定 了 行 的 顺序 。 所 以 当 反 癌 URL 作 行 键 时 ， 与 example.com 的 两 个 子 域 
名 (比如 www.example.com 和 news.example.com ) 相关 的 行 集会 存储 在 彼此 邻近 的 位 置 上 。 这 样 
查询 和 某 个 域名 相关 的 内 容 就 更 容易 一 些 。 

通常 情况 下 ， 内 容 、 销 点 和 MIME 类 型 是 列 族 ， 其 概念 模型 类 似 基 于 列 的 表格 ， 如 图 4-7 
HIN s 

















行 键 时 间 内 容 FHRA mime 


mmmn | | f m 


|os qme | | 
|o qme |o |o 


图 4-7 








Bigtable 的 许多 开源 实现 在 文档 中 都 包含 了 Webtable 的 例子 。 例 如 HBase 架构 的 维基 条 目 ， 
地 址 http://wiki.apache.org/hadoop/Hbase/HbaseArchitecture; Hypertable 数据 模型 文档 ， 地 址 : 
http://code.google.com/p/hypertable/wiki/ArchitecturalOverviewZData Model, 

概述 了 列 数 据 库 的 概念 之 后 ， 下 面 介 绍 HBase 的 部 署 和 存储 模型 。 在 列 数据 库 中 HBase 的 
分 布 式 部 署 模型 堪 称 典型 ， 对 了 解 Web 规模 数据 库 架 构 是 一 个 很 好 的 起 点 。 
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4.2 HBase 分 布 式 存 储 架 构 


一 个 健壮 的 HBase FIRR T HBase 本 身 ， 还 包括 其 他 一 些 部 分 ， 至 少 得 包括 一 个 分 布 式 的 
中 央 服 务 ， 用 来 进行 配置 和 同步 。 架 构 总 览 如 网 4-8。 

















区 间 4 


分 布 式 文集 系统 





图 4-8 


HBase 的 部 团体 从 主 从 模式 。 通 常 有 一 个 主机 和 一 组 从 机 ,俗称 range server。 局 动 时 ， 主 机 
给 每 台 range server 分 配 一 组 区 间 。 每 个 区 间 包 含 一 个 行 记录 的 有 序 集合 ， 行 记录 由 行 键 唯一 标 
识 。 如 果 存 储 在 区 间 里 的 行 记录 数量 超过 了 配置 的 阔 值 ， 区 间 就 会 分 割 成 两 个 新 的 区 间 , 行 记 录 
在 这 两 个 新 的 区 间 之 间 分 配 。 

和 大 多 数列 数据 库 一 样 ，HBase 中 列 族 的 所 有 列 存放 在 一 起 。 因 此 每 个 区 间 为 每 张 表 的 每 个 
列 族 维护 独立 的 存储 。 存 储 和 底层 分 布 式 文件 系统 的 物理 文件 一 一 对 应 。 对 这 些 单 独 的 存储 ， 
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HBase 封 狐 了 一 层 很 注 的 API， 抽 和 象 挥 了 对 底层 文件 系统 的 访问 ， 存 储 用 它 作 为 中 介 访 问 底层 物 
理 文件 。 

每 个 区 间 都 有 内 存 存 储 (或 者 说 是 缓存) 和 WAL (write-ahead-log， 预 写 日 志 )。 下 面 引 述 
维基 百科 ( http:/en.wikipedia.org/wiki/Write-ahead logging ), WAL 是 在 数据 库 系 统 中 提供 原子 性 
和 持久 性 C ACID 的 两 个 属性 ) 的 一 族 技 术 。WAL 常见 于 各 种 数据 库 系 统 ， 包括 流行 的 关系 型 数 
据 库 系统 ， 例 如 PostgreSQL fll MySQL. Æ HBase 中 ， 客 户 端 程序 能 决定 是 否 开 启 WAL。 关 闭 
WAL 能 提升 性 能 ， 但 在 出 现 错误 时 会 降低 可 靠 性 和 恢复 能 力 。 如 果 开 局 了 WAL， 数 据 写 人 区 间 
前 会 先 写 日 志 ， 然 后 写 人 区 间 的 内 存 存储 。 内 存 存 储 填 满 以 后 ， 数 据 会 刷 入 人 磁盘， 持久 化 到 底层 
分 布 式 存储 中 。region server 和 区 间 的 核心 概述 如 图 4-9 所 示 。 























Region Server 





分 布 式 文件 系统 





图 4-9 


如 果 使 用 了 类 似 HDFS ( Hadoop Distributed FileSystem, Hadoop 分 布 式 文件 系统 ) 的 分 布 式 
文件 系统 ， 那 么 主 从 模式 还 会 扩展 到 底层 存储 架构 。HDFS 里 ,一 个 namenode 和 一 组 datanode 
形成 的 结构 非常 类 似 于 HBase 等 列 数 据 库 中 主 服 务 侣 和 range server 的 配置 。 这 种 情况 下 ,HBase 
里 每 个 列 族 的 物理 存储 文件 最 终 落 到 HDFS 的 datanode 上 。HBase 利用 文件 系统 API 避免 了 与 
HDFS 强 耦 合 ， 所 以 文件 系统 API 可 以 看 成 是 HBase 和 相应 的 HDFS 文件 相交 流 的 中 介 。 这 个 
API 还 文 持 HBase 无 颖 地 集成 其 他 类 型 的 文件 系统 。 比 如 HBase 可 以 使 用 CloudStore, 它 的 前 号 
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是 KFS ( Kosmos FileSystem, Kosmos 文件 系统 )， 而 非 HDFS 。 





除了 利用 分 布 式 文 件 系统 做 存储 ，HBase 集群 还 利用 到 了 外 部 配置 与 协调 工具 。 在 
Bigtable 的 论文 里 ，Google 将 这 个 配置 程序 命名 为 Chubby。 作 为 Google 基础 设施 的 镜像 ， 
Hadoop 也 创造 了 一 个 正好 对 应 的 产品 ， 名 为 ZooKeeper。Hypertable 也 有 一 个 类 似 的 基础 设 
施 部 件 ， 名 为 Hyperspace。ZooKeeper 集群 通常 用 作 HBase 集群 的 前 端 ， 负 责 处 理 新 客户 和 
管理 配置 。 

第 一 次 访问 HBase 时 ， 客 户 端 先 通过 ZooKeeper 访问 两 个 目录 -RooT- 和 .META。 这 些 目录 
维护 着 所 有 区 间 的 状态 和 位 置信 息 。-RooT- 维 护 和 所 有 .META 表 相 关 的 信息 ，.META 文件 维护 
和 用 户 空 间 表 〈 即 保存 数据 的 表 ) 相关 的 信息 。 客 户 问 想 要 访问 某 行 数据 时 ， 首 先 问 ZooKeeper 
要 -ROOT- 目 录 。 然后 从 -RooT- 目 录 定 位 到 行 记 录 的 .META 目录 ，.META 目录 提供 了 和 行 记 录 有 
关 的 所 有 区 间 的 明细 ,最 后 用 这 个 信息 访问 行 记录 。 下 次 再 访问 同一 行 数据 时 ， 客 户 问 不 会 再 重 
复 这 个 三 步 查找 过 程 。 列 数据 库 非 常 依赖 对 三 步 查找 过 程 相 关 信 息 的 缓存 , 这 样 下 次 客户 端 需要 
行 数 据 时 ， 就 可 以 直接 访问 region server。 只 有 在 区 间 绥 存 过 期 、 区 间 被 共用 或 者 区 间 无 法 访问 
的 情况 下 ， 才 会 重复 查找 循环 。 

每 个 区 间 通 稼 用 存储 的 最 小 行 键 来 标识 , 所 以 查找 行 记录 非 稼 简单 ,检查 行 键 大 于 等 于 区 间 
标识 符 即 可 。 

到 这 儿 , 列 数 据 库 存储 的 基本 概念 和 物理 模型 都 已 经 介绍 完了 , 它们 旋 写 数据 的 机 制 也 
公开 了 。 后 面 草 市 里 还 会 介绍 一 些 相 关 的 高 阶 特性 和 细 市 的 微小 差别 ， 下 面 我 们 转 癌 文档 
存储 。 


4.3 文档 存储 内 部 机 制 


前 面 章节 从 用 户 角 度 介 绍 了 文档 存储 MongoDB， 下 一 步 我 们 “ 开 剥 洋葱 皮 ”。 

MongoDB 是 文档 存储 ， 文 档 按 组 分 成 集合 。 在 概念 上 ， 可 以 认为 集合 类 似 关 系 表 。 不 过 集 
合并 不 对 schema 进行 严格 的 约束 ， 这 点 和 关系 表 不 同 。 一 个 集合 可 以 包含 任何 文档 ， 不 过 为 了 
便于 进行 有 效 的 索引 ,同一 个 集合 的 文档 还 是 相似 更 好 。 集合 用 命名 空间 隔离 , 但 内 部 形式 不 是 
按 命名 空间 来 划分 层次 的 。 

文档 存储 为 BSON 格式 。BSON 是 JSON 类 文档 的 二 进 制 编码 形式 ， 结 构 类 似 般 套 键 / 值 对 。 
BSON 是 JSON 的 超 集 ， 额 外 支持 一 些 类 型 ， 比 如 正则 表达 式 、 二 进 制 数 据 和 日 期 。 每 个 文档 都 
有 一 个 唯一 标识 符 ， 如 果 数 据 插 入 集合 前 没有 明确 指定 唯一 标识 符 ， 可 以 由 MongoDB 生成 ， 自 
动 生成 的 对 象 ID 结构 如 图 4-10。 
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图 4-10 


MongoDB 的 驱动 和 客户 端 在 访问 BSON 编码 的 数据 时 ， 会 对 数据 进行 序列 化 和 反 序 列 化 操 
作 。 男 一 方面 ，MongoDB 服务 咒 理 解 BSON 格式 ， 无 需 序 列 化 ， 因 而 避免 了 额外 的 开销 。 数 据 
在 传输 和 读 取 过 程 中 ， 都 采用 相同 的 二 进 制 格式 ， 这 极 大 地 提升 了 性 能 。 











BSON 像 Protocol Buffers 吗 ? 

Protocol Buffers， 有 时 又 称 protobuf， 是 Google 为 了 实现 高 效 传输 而 对 结构 化 数据 进行 编 
码 的 方式 。Google 用 它 来 进行 所 有 内 部 的 远程 调用 (Remote Procedure Call, RPC ) 和 交换 格 
式 。Protobuf 和 XML 类 似 ， 是 结构 化 格式 ,但 是 比 XML ER, S pe, EBX, Protobuf 是 语 
言 和 平台 中 立 的 规范 和 编码 机 制 ， 可 以 在 许多 语言 中 使 用 。 更 多 有 关 protobuf 的 内 容 请 访问 : 
http://code.google.com/p/protobuf/, 

BSON 和 protobuf 的 相似 之 处 在 于 它 也 是 语言 和 平台 中 立 的 编码 机 制 、 数 据 交互 格式 和 文 
件 格 式 。 与 protobuf 相 比 , BSON 结构 化 更 弱 , 这样 增强 了 灵活 性 ,但 也 失去 了 明确 定义 schema 
的 性 能 优势 。 尽 管 BSON 和 MongoDB 有 关联 ， 但 是 完全 可 以 脱离 MongoDB 使 用 这 种 格式 。 
MongoDB 驱动 主要 用 于 和 MongoDB 服务 器 交互 ， 但 是 BSON 序列 化 特性 可 以 单独 利用 。 更 
多 有 关 BSON 的 内 容 请 访问 : http://bsonspec.org/。 





4.3.1 用 内 存 映 射 文件 存储 数据 


内 存 映射 文件 是 一 段 逐 字 市 分 配给 文件 的 虚拟 内 存 , 或 者 是 能 通过 文件 描述 符 引 用 的 一 种 类 
似 于 文件 的 资源 。 这 样 ， 应 用 程序 和 这 些 文件 交互 时 ,可 以 把 它们 看 作 主 内 存 的 一 部 分 。 Ej Rx 
的 磁盘 读 写 相 比 ， 这 可 以 明显 提高 VO 人 性能。 访问 和 操作 内 存 比 系统 调用 快 多 了 。 除 此 以 外 ， 诸 
如 Linux 等 操作 系统 ， 上 映射 到 文件 的 内 存 区 域 属 于 内 存 页 组 存 的 一 部 分 。 这 个 绥 存 对 应 用 完全 透 
明 ， 通 津 称 为 页 缓存 ， 由 操作 系统 的 内 核 来 实现 。 

MongoDB 选择 用 内 存 映 射 文件 存储 ， 这 种 策略 很 聪明 ,但 是 也 造成 了 一 些 影响 。 首 先 ， 内 
存 映 射 文件 暗示 没有 分 离 操作 系统 缓存 和 数据 库 缓 存 , 也 没有 缓存 了 见 余 。 其 次 ,由 于 虚拟 内 存 映 
射 并 非 在 所 有 操作 系统 上 都 以 同样 的 方式 工作 , 所 以 绥 存 受 操作 系统 控制 : 至 于 什么 能 保存 在 绥 
人 存 里 ， 什 么 会 被 丢 痉 掉 ， 绥 存 管理 策略 会 随 操 作 系统 不 同 而 变化 。 第 三 ， 无 需 任 何 额外 配置 ， 
MongoDB 的 数据 库 绥 存 就 能 用 掉 所 有 可 用 内 存 ， 这 说 明 通 过 提供 更 大 的 RAM 和 分 配 更 大 的 虚 
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拟 内 存 可 以 提升 MongoDB 的 性 能 。 

内 存 映 射 也 有 一 些 限 制 。 比 如 MongoDB 在 32 位 系统 上 数据 最 大 值 不 能 超过 2GB。64 位 机 
器 上 则 没有 这 个 限制 。 

数据 库 大 小 不 是 唯一 的 限制 。 其 他 限制 包括 文档 大 小 和 MongoDB 服务 器 可 以 容纳 的 集合 数 
量 。 单 个 文档 不 能 超过 8MiB， 这 说 明 不 适合 用 MongoDB 存储 大 对 象 。 如 果 必 须 存 储 大 于 8MIB 
的 文档 ， 就 要 用 GridFS。 此 外 ， 一 个 数据 库 实例 默认 支持 24 000 个 命名 空间 。 每 个 集合 和 索引 
各 占 一 个 命名 空间 ， 即 如 果 每 个 集合 默认 有 两 个 索引 ， 则 一 个 数据 库 最 多 容纳 8000 个 集合 。 这 
么 大 的 数量 通常 足够 了 ， 如 果 还 需要 更 多 ， 可 以 增加 命名 空间 数量 ， 使 其 超过 24 000。 

增加 命名 空间 数量 也 有 限制 和 影响 。 每 个 集合 命名 空间 都 要 占用 几 kB。MongoDB 的 索引 用 
B 树 实 现 ,每 个 B 树 页 占 8kB。 如 果 增 加 了 额外 的 命名 空间 ， 无 论 对 集合 还 是 索引 ， 每 个 额外 的 
实例 都 要 多 占用 几 kB- AGEE mydb 的 命名 空间 保存 在 文件 myab .ns 中, 像 mydb.ns 这 样 的 .ns 
文件 最 大 不 能 超过 2GB。 

由 于 大 小 上 的 约束 限制 了 数据 库 无 限 增长 ， 所 以 了 解 集 合 和 索引 的 行为 模式 就 非常 重要 。 























4.3.2 ”MongoDB 集 合 和 索引 使 用 指南 


没有 公式 能 确定 数据 库 中 集合 数量 的 最 佳 值 , 所 以 最 好 避免 在 一 个 集合 中 放 入 过 多 不 同 种 类 
的 数据 。 不 同 来 源 的 数据 混合 在 一 起 会 增加 索引 的 复杂 性 。 一 个 好 的 经 验 法 则 是 先 问 问 目 己 是 否 
经 党 需要 路 集合 查询 。 如 有 果 答 案 是 肯定 的 , 那 就 把 数据 放 在 一 起 ， 否 则 就 分 到 不 同 集合 ， 因 为 那 
FER UH Hi o 

有 时 候 集 合 可 能 无 限 增长 ， 直 通 2GB 数据 库 大 小 。 这 种 情况 下 可 以 考虑 用 定量 集合 。 
MongoDB 定量 集合 像 是 预定 义 好 大 小 的 栈 。 定 量 集合 达到 预定 义 大 小 后 ， 旧 数据 会 被 删 际 。 旧 
数据 用 LRU ( Least Recently Used， 最 近 最 少 使 用 ) 算法 确定 。 从 定量 集合 中 获取 文档 服从 LIFO 
( Last-In-First-out， 后 进 先 出 ) 原则 。 














了 解 更 多 有 关 LRU 算法 的 内 容 ， 请 访问 : 


http://en.wikipedia.org/wiki/Cache algorithms#Least Recently Used, 





所 有 MongoDB 集合 的 _ia 字段 都 有 有 索引。 此 外 ， 文 档 的 任何 属性 上 都 可 以 定义 索引 。 碍 询 
时 ， 集 合 文档 按 集合 中 _id 的 目 然 顺序 返回 。 只 有 定量 集合 使 用 LIFO 顺序 ( 即 插入 顺序 )。 游 标 
分 批 返回 数据 ， 每 批 限 制 在 SMiB 以 内 。 记 录 更 新 原 地 进行 。 

MongoDB 提供 了 增强 的 性 能 ， 但 其 代价 是 牺牲 可 徘 性 。 








4.3.3 MongoDB 的 可 靠 性 和 耐久 性 


MongoDB 并 不 总 是 注意 原子 性 ， 也 没 定义 并 发 操作 中 的 事务 完整 性 和 隔离 级 别 。 因 此 在 更 
新 闻 一 个 集合 时 ， 两 个 进程 可 能 相互 冲突 。 RA Modifier Operation 的 特定 二 类 操作 才 提供 
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MongoDB 为 原子 更 新 定义 了 如 下 一 些 modifer operation; 
Sinc: 累加 字段 值 

sset: WE FHE 

Sunset: 删除 字段 

push: 向 字段 追加 值 

$pushAll: 向 字段 追加 一 组 值 

SaddToSet: 将 值 添 加 到 数组 中 ， 重 复 的 不 添加 
Spop: 删除 数组 末尾 元 素 

$pull: 给 定 一 个 值 ， 删 除 字段 中 所 有 匹配 元 素 
$pullAl1: 给 定 一 组 值 ， 删 除 字 段 中 所 有 匹配 元 素 
srename: 重合 名 字段 


DOoOoDOoOoDoOODOODODODDOD UO 


缺失 隅 离 级 别 有 时 会 导致 胜 谈 。 数 据 被 修改 后 ， 洲 标 不 会 目 动 更 新 。 

MongoDB 默认 每 分 钟 刷 一 次 磁盘 ， 到 时 候 插 和 信和 更 新 的 数据 就 会 记录 到 磁盘 上 。 两 次 更 新 
之 间 ， 任 何 错误 和 都 可 能 导致 不 一 致 。 可 以 提高 同步 频率 或 强制 刷 磁 盘 ， 但 这 样 会 影响 性 能 。 

为 了 避免 在 系统 错误 时 丢失 所 有 和 更新， 明智 的 做 法 是 进行 复制 。 可 以 按 主 从 结构 配置 两 个 
MongoDB 实例 进行 复制 和 数据 同步 。 复 制 是 卉 步 的 ， 因 此 修改 不 会 即刻 完成 复制 ， 不 过 有 总 比 
没有 强 。 目 前 的 MongoDB 版 本 中 ， 副 本 集 代 符 了 主 从 复制 ， 一 个 副本 集 包括 三 个 副本 。 一 以 长 
机 ， 两 架 僚 机 。 副 本 集 文 持 目 动 恢复 和 有 目 动 故障 转移 。 

复制 更 多 的 是 作为 一 种 故障 转移 和 灾难 恢复 准备 ， 而 分 片 则 可 用 来 进行 水 平 扩展 。 


4.3.4 水 平 扩展 


选用 MongoDB HJ—^-8& W.JESPRURISS schema 集合 有 关 ， 另 外 一 个 原因 则 是 其 良好 的 性 能 和 
扩展 性 。 最 近 的 版 本 中 ，MongoDB 开始 文 持 目 动 分 请 ， 这 使 得 水 平 扩展 更 容易 了 。 

分 片 的 基本 概念 和 列 数 据 库 的 主 从 模式 非常 相近 ， 主 从 模式 把 数据 分 散 到 多 台 range server 
Eo MongoDB 文 持 把 集合 分 开 保存 到 多 台 机 絮 上 ， 每 台 机 可 保存 一 部 分 ， 算 一 个 分 片 。 故 障 转 
移 通 过 复制 分 片 实现 。 例 如 ， 一 个 大 集合 可 以 分 成 四 个 分 片 ， 每 个 分 片 复制 三 份 ， 总 共 创 建 12 
MongoDB 服务 需 单 元 。 每 个 分 片 多 出 来 的 两 份 拷贝 用 作 故 障 转移 单元 。 

了 份 族 是 集合 层面 的 ， 不 是 数据 库 层 面 的 因此， 可 能 同一 个 数据 库 里 的 集合 A 驻 留 在 单个 
PAE, MEE B 则 分 片 到 多 个 市 点 上 。 

每 个 分 片 存储 文档 有 序 集合 中 连续 的 一 部 分 。 这 一 部 分 按 MongoDB 的 话说 就 是 块 , ARETOJA 



























































任何 有 效 的 厂 键 模式 痢 可 以 用 来 对 集合 分 片 。 任 何 一 个 字段 、 两 个 或 更 多 文档 字段 的 组 合 邦 
可 以 用 作 记 键 。 除 字段 以 外 ， 厂 键 还 包括 排序 方向 的 属性 。 排 序 方向 1 表示 升序 ，-1 表示 降序 。 
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分 请 选 择 非常 重要 ， 需 要 审慎 且 有 过 见 ， 以 保证 划分 后 的 平衡 性 。 

所 有 与 分 片 及 块 有 关 的 定义 都 保存 在 配置 服务 各 的 元 数据 目录 里 。 和 分 刻 一 样 , 配置 服务 天 
也 通过 复制 支持 故障 转移 。 

客户 端 进 程 通 过 mongos 连接 MongoDB 集群 。mongos 进程 本 刁 不 保存 状态 ， 而 是 从 配置 服 
务 器 中 获取 。 一 个 MongoDB 集群 可 以 有 一 个 或 多 个 mongos 进程 。mongos 进程 负责 请 求 路 由 和 
结果 合并 。 发 送 给 MongoDB 集群 的 查询 可 以 是 有 针对 性 的 , 也 可 以 是 全 局 的 。 可 以 利用 卢 键 ( 数 
据 通 党 按 乒 键 排序 ) 的 查询 是 针对 性 查询 ， 反 之 就 是 全 局 的 。 针 对 性 查询 比 全 局 查询 效率 更 好 。 mm 











可 以 把 全 局 查询 看 作 需 要 全 集合 扫描 的 查询 。 
MongoDB 分 片 染 构 的 拓扑 如 图 4-11 所 示 。 


分 片 1 分 





图 4-11 
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接 下 来 我 们 将 介绍 键 / 值 存储 的 存储 架构 及 其 彼此 间 的 微小 差别 。 
4.4 Aik Memcached 和 Redis 


虽然 各 种 键 / 值 存储 千差万别 ， 但 是 它们 也 有 很 多 共通 之 处 ， 比 如 数据 都 存储 在 映射 表 里 。 
本 市 将 展示 Memcached 和 Redis 的 内 部 机 制 ， 介 绍 一 个 健壮 的 键 / 值 存 储 都 由 哪些 部 分 组 成 。 


4.4.1 Memcached 的 内 部 结构 


Memcached (下 载 请 访问 http://memcached.org ) 是 一 种 分 布 式 高 性 能 对 象 缓存 系统 ， 它 风靡 
一 时 ， 普 遍 应 用 于 高 流量 网 站 ， 例 如 Facebook, Twitter, Wikipedia 和 Youtube。Memcached 简洁 
到 了 极致 ， 只 包含 最 小 的 功能 集 ， 不 文 持 备份 、 故 障 转移 或 者 故障 恢复 。 它 提供 的 API 很 简单 ， 
几乎 任何 Web 编程 语言 都 可 以 使 用 。 应 用 程序 栈 中 使 用 Memcached 的 主要 目的 通常 是 减少 数据 
Eno WA! Web 应 用 中 Memcached 可 能 的 配置 见 图 4-12。 


反问 代理 
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Memcached Database 


池 ab 


图 4-12 


Memcached IJTZZ&—^ 8. (slab ) ietro Memcached 按 权 存储 值 。 权 本 身 由 页 (page ) 
组 成 ， 页 又 由 块 ( chunk ) 或 桶 (bucket) 组 成 。 模 最 小 1kB ， 大 小 按 1.25 BERGE. BIER 
的 大 小 可 以 是 1kB (1.25 的 0 2X3), 1.25kB (1.25 的 1 2X3), 1.5625 (125 的 2 XF) 等 ， 以 
此 类 推 。Memcached 可 以 存储 的 值 最 大 不 能 超过 1MB。 值 通过 键 来 存储 和 引用 。 键 最 大 是 250 
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字 节 。 对 象 存 储 在 与 其 大 小 最 近似 的 块 或 桶 中 。 例 如 一 个 1.4kB 大 小 的 对 象 ， 就 会 被 存储 在 
1.5625kB 大 小 的 块 中 。 这 会 导致 空间 浪费 , 特别 是 当 对 和 象 仅 略 大 于 上 一 个 比 它 小 的 块 时 。 移 认 情 
况 下 ，Memcached 能 用 卸 所 有 可 用 的 内 存 ， 它 只 受 限 于 底层 架构 。Memcache 的 一 些 基 本 特征 如 
图 4-13 所 示 。 








1 MB 的 页 





1 MB 的 页 





图 4-13 





LRU 算法 控制 对 旧 绥 存 对 象 的 驱逐 ， 以 模 为 单位 执行 。 随 看 对 象 不 断 被 存储 、 清 理 ， 有 可 
能 会 出 现 碎 族 ， 而 重新 分 配 内 存 能 解决 部 分 问题 。 

Memcached 作为 一 种 对 象 缓存 , 组织 数据 元 素 时 并 不 使 用 某 种 集合 的 形式 ， 比 如 列表 、 无 序 
R., AFTRA, (HÆ Redis 提供 了 对 所 有 这 些 丰 军 的 数据 结构 的 文 持 。Redis 类 似 于 
Memcached， 但 更 健壮 。 前 面 章 节 中 我 们 使 用 过 了 Redis. 

下 面 简 要 地 介绍 一 下 Redis 的 内 部 结构 。 








4.4.2 ”Redis 的 内 部 结构 


在 Redis 中 万 物 丝 为 字符 串 ， 甚 至 像 列 表 、 无 序 集 、 有 序 集 和 映射 表 这 样 的 集合 也 由 字符 串 
组 成 。Redis 定义 了 一 个 特别 的 结构 SDS, PAWE (simple dynamic string )， 这 个 结 
构 由 以 下 三 部 分 组 成 。 

O buff: 存储 字符 串 的 字符 数组 

O len: 存储 buff 数 组 长 度 的 长 整 型 

O free: 可 用 学 市 的 数量 

单独 存储 len 看 似 是 多 余 的 开销 ， 因 为 通过 buff 数 组 可 以 很 容易 计算 出 来 ,但 是 它 能 在 固 
定时 间 内 返回 字符 串 长 度 。 

Redis 在 主 内 存 中 保存 数据 ， 并 按 需 将 其 持久 化 到 磁盘 上 。 与 MongoDB 不 同 ， 它 没有 使 用 
内 存 映射 文件 。 相 反 ，Redis 实现 了 它 目 己 的 虚拟 内 存 子 系统 。 当 一 个 值 被 换 出 到 磁盘 上 时 ， 一 
个 指 回 那 个 磁盘 页 的 指针 会 和 键 一 起 存储 。 更 多 有 关 其 虚拟 内 存 技术 规范 的 内 容 ， 请 访问 : 
http:/code.google.comy/p/redls/wlkVyVirtualMemorySpeclfication 。 
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除了 虚拟 内 存 管理 需 以 外 ，Redis 还 包括 了 一 个 事件 库 ， 用 来 协调 非 阻塞 的 套 接 字 操作 。 
Redis 架构 概览 如 图 4-14 所 示 。 





事件 循环 
Redis 的 虚拟 
内 存 管理 系统 
EL —— 
m 
( c» 3 RETE 
o D ^ 


图 4-14 


为 什么 Redis 不 依赖 操作 系统 的 虚拟 内 存 交 换 ? 
Redis 不 依赖 操作 系统 交换 ， 是 出 于 以 下 原因 。 
O Redis 对 象 并 不 与 内 存 页 一 一 映射 。 一 页 是 4096 字 节 长 ,而 一 个 Redis 对 象 可 以 跨越 多 
个 页 。 类 似 地 ， 多 个 Redis 对 象 也 可 以 放 在 一 页 上 。 因 此 ， 即 使 只 访问 少量 Redis 对 象 ， 
也 可 能 触及 大 量 页 。 操作 系统 会 跟踪 对 页 的 访问 。 因此， 即使 一 页 里 只 有 一 字 节 被 访问 
过 ， 它 也 会 被 排除 到 交换 系统 之 外 。 
口 与 MongoDB 不 同 ，Redis 数据 在 RAM 里 和 在 磁盘 上 格式 不 一 样 。 在 磁盘 上 的 数据 经 
过 压缩 远 小 于 在 RAM 里 的 大 小 ， 因 此 使 用 自 定义 的 交换 技术 能 减少 磁盘 LO。 
Redis 的 作者 Salvatore Sanfillipo 在 他 的 博文 “Redis Virtual Memory: the story and the code” 
中 讨论 了 Redis 的 虚拟 内 存 系 统 ， 查 阅 这 篇 博文 请 访问 : http://antirez.com/post/redis-virtual- 
memory-story.html ; 








接 下 来 ,也 是 最 后 ,我 们 把 注意 力 转移 回 面 回 列 的 数据 库 。 不 过 这 一 次 是 一 族 特 殊 的 面 回 列 
数据 库 ， 即 那些 最 终 一 致 的 面 癌 列 数 据 库 。 


4.5 ”最终 一 致 性 非 天 系 型 数据 库 


如 果 说 Google Bigtable 是 列 数据 库 的 灵感 之 源 ， 那 么 Amazon Dynamo 就 是 最 终 一 致 性 存储 
的 原型 。2007 年 ， 在 会 议 Symposium on Operating Systems Principles E, Amazon Dynamo 背后 的 
理念 被 提 了 出 来 , 并 通过 一 篇 技术 论文 开放 给 了 公众 , 论文 地 址 是 : www.allthingsdistributed.com/ 
filesamazon-dynamo-sosp2007.pdf。 没 过 多 久 , Dynamo 的 思想 就 融入 到 了 许多 开源 实现 中 , 例如 
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Apache Cassandra, Voldemort, Riak 和 Dynomite。 本 方 将 讨论 最 终 一 致 性 键 / 值 存储 的 基本 原理 ， 
具体 的 开源 实现 留待 后 面 章 节 再 讨论 。 

Amazon Dynamo 文 撑 了 亚 蕊 还 内 部 许多 服务 的 运转 ， 这 些 服务 又 控制 着 它 庞 大 的 电子 商务 
系统 。 这 个 系统 有 些 基 本 的 需求 ,包括 高 可 用 性 和 容错 能 力 。 不 过 数据 被 组 织 成 了 大 部 分 情况 下 
只 需 按 主键 查询 的 结构 ， 所 以 关系 型 引用 和 join 连接 不 是 必需 的 。Dynamo 建立 在 一 致 性 哈 希 
( consistent hashing )、 对象 版 本 ( object versioning )、 闲 话 协 议 ( gossip-based membership protocol ), 
哈 希 树 (merkle tree， 又 叫 hash tree ) 和 提示 移交 (hinted handoff) 这 些 想法 的 基础 上 。 

Dynamo 文 持 简单 的 get-put 接口 。Put 请 求 包含 与 对 象 版 本 有 关 的 数据 ， 这 个 数据 存储 在 上 
下 文 里 。Dynamo 文 持 随 数 据 增长 扩容 ， 因 此 ， 它 依赖 一 任性 哈 希 进行 有 效 的 分 区 。 
































4.5.1 一 致 性 哈 希 


一 致 性 哈 希 已 经 成 为 分 布 式 哈 希 表 一 个 重要 的 原则 。 一 致 性 哈 希 中 添加 或 者 删除 一 个 槽 
(slot) 不 会 显著 改变 键 与 槽 的 映射 关系 。 要 明白 这 种 哈 希 方案 的 价值 ,我 们 先 来 看 看 基本 的 哈 硕 
方案 ， 理 解 在 增删 槽 时 会 出 现 什么 问题 。 

一 个 简朴 的 键 分 配 策略 是 取 余 函数 。 要 把 50 个 键 分 配给 7 个 节点 ， 可 以 这 样 做 : 键 为 85 的 
去 节点 1， 因 为 85 对 7 取 余 等 于 1; 键 为 18 的 去 节点 4， 因 为 18 对 7 取 余 得 4; 其 他 的 以 此 类 
推 。 只 要 节点 数量 不 发 生变 化 〈 即 添加 新 节点 或 者 删除 老 节 点 )， 这 种 策略 就 没什么 问题 。 一 旦 
节点 数量 发 生变 化 , 对 原 有 的 键 取 余 函数 会 产生 跟 先 前 不 同 的 输出 ,导致 键 在 节点 的 位 置 重新 排 
列 。 出 现 这 种 低 效 的 情况 时 ， 一 致 性 哈 希 就 有 了 用 武之 地 。 

一 致 性 哈 希 中 ， 节 点 的 增 减 不 会 对 键 的 排列 产生 非常 大 的 影响 。 为 了 直观 起 见 ,， 我们 画 一 个 
圆 来 解释 ， 如 图 4-15， 上 面 标记 出 了 节点 的 位 置 。 

















A 

] 

2 3 
8 4 
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键 应 该 分 配给 离 它 们 最 近 的 节点 。 图 4-15 里 ，1、2 、3 分 配给 节点 A; 4 分 配给 B; 5 和 6 
分 配给 C; 7 和 8 给 D。 这 种 方案 需要 很 大 的 哈 希 空间 ， 通 常 包含 SHA 键 的 所 有 空间 ， 然 后 将 
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其 映射 到 一 个 圆 上 。 从 0 开始 ， 党 顺 时 针 方 加 依次 映射 直到 最 大 值 为 止 ， 然 后 回 到 0。 市 点 也 用 
相同 的 办 法 哈 硕 和 映射 。 

现在 ， 假 设 移 除 节点 A， 添 加 节点 E， 如 图 4-16。 然 后 重 排 ，1 去 节点 下，2 、3 去 节点 B， 
其 他 值 都 不 受 影响 。 


C 6 : 


图 4-16 


一 致 性 哈 希 提供 了 有 效 的 分 区 ， 而 对 象 版 本 则 有 助 于 保持 数据 一 致 。 


4.5.2 ”对象 版 本 


对 大 型 的 分 布 式 和 高 可 扩展 系统 ，ACID 事务 会 市 来 巨大 的 开销 ， 所 以 Dynamo 提出 了 用 对 
象 版 本 和 矢量 时 钟 来 保持 一 致 性 。 下 面 举 一 个 例子 来 讲 讲 矢量 时 钟 是 如 何 工 作 的 。 

假设 有 四 个 黑客 : Joe, Hillary, Eric 和 Ajay， 他 们 决定 见面 聊 聊 矢量 时 钟 。Joe 建议 在 Palo 
Alto 碰头 。 之 后 ，Hillary 和 Eric 在 工作 时 见面 ， 并 认为 Mountain View 是 最 佳 的 聚会 地 点 。 同 一 
K, Eric 和 Ajay 相互 通 了 消息 ， 并 得 出 结论 : 应 该 在 Los Altos 碰头 。 等 到 了 聚会 的 那天 ，Joe 
给 每 个 人 发 了 币 提醒 的 电子 邮件 和 Palo Alto 的 聚会 地 址 。Hillary 回应 说 会 场 改 在 了 Mountain 
View, Mi Ajay 说 应 该 是 Los Altos。 两 个 人 都 声称 Eric 知道 决定 。 现 在 大 家 联系 Eric 来 解决 这 个 
问题 。 这 时 可 以 用 矢量 时 钟 来 解决 冲突 。 

我 们 可 以 为 三 个 会 场 Palo Alto, Mountain View 和 Los Altos 分 别 创建 矢量 时 钟 如 下 : 


Venue: Palo Alto 
Vector Clock: Joe (ver 1) 











Venue: Mountain View 
Vector Clock: Joe (ver 1), Hillary (ver 1), Eric (ver 1j 


Venue: Los Altos 
Vector Clock: Joe (ver 1), Ajay (ver 1), Eric (ver 1) 


Mountain View 和 Los Altos 的 矢量 时 钟 都 包括 了 Joe 最 初 的 选择 ,因为 大 家 都 知道 。Moutain 
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View 的 矢量 时 钟 是 基于 Hillary 的 回应 ， 而 Los Altos 的 矢量 时 钟 是 基于 Ajay 的 回应 。Mountain 
View 和 Los Altos 的 矢量 时 钟 没 有 同步 ， 因 为 它们 不 是 从 对 方 那里 延伸 〈descend ) 下 来 的 。 只 有 
当 一 个 矢量 时 钟 的 版 本 大 于 等 于 男 一 个 天 量 时 钟 的 所 有 从 时 ， 才 能 算是 从 它 那 里 延伸 下 来 的 。 
最 后 ，Joe 在 电话 上 抓 春 Eric 不 放 ， 要 他 解决 混乱 的 状态 。Eric 意识 到 了 问题 ， 并 快速 得 出 
结论 : TE Mountain View 举行 会 议 可 能 是 最 好 的 想法 。 现 在 Joe 画 出 更 新 后 的 矢量 时 钟 如 下 : 


Venue: Palo Alto 
Vector Clock: Joe (ver 1; 














Venue: Mountain View 
Vector Clock: Joe (ver 1), Hillary (ver 1), Ajay (ver 0), Eric (ver 2j 


Venue: Los Altos 
Vector Clock: Joe (ver 1), Hillary (ver 0), Ajay (ver 1), Eric (ver 1; 


版 本 0 是 为 Hillary 和 Ajay 创建 的 ， 代 表 他 们 没有 提议 过 ， 但 是 现在 知道 了 的 会 场 。 现 在 ， 
矢量 时 钟 都 相互 延伸 下 来 了 ， 而 且 确 定 Mountain View 是 他 们 碰面 的 地 点 。 从 这 个 例子 中 可 以 观 
察 到 ， 矢 量 时 钟 不 仅 能 帮助 确定 事件 发 生 的 顺序 ,还 能 标识 出 产生 这 些 问题 的 根源 ， 进 而 帮助 解 
决 不 一 致 性 。 

除了 对 象 版 本 以 外 ，Dynamo 还 在 节点 上 使 用 闲话 协议 ， 并 用 提示 移交 来 保证 一 致 性 。 











4.5.3 ”内 话 协议 和 提示 移交 


内 话 协议 是 一 种 通讯 协议 , 它 的 灵感 来 日 社交 网 络 上 和 办 公 室 里 的 八卦 ,用 话 协 议 涉及 周期 、 
配对 以 及 跨 进 程 通 讯 。 它 的 可 徘 性 不 高 ， 而 且 配 对 往往 是 随机 的 。 

为 了 持久 性 ,消息 通 冲 要 求 写 入 所 有 指定 节点 ， 而 提示 移交 放宽 了 这 个 要 求 。 在 健康 节点 上 
执行 了 号 操 作 就 行 ， 同 时 要 添加 一 个 提示 ， 以 便 失 败 市 点 重 局 后 能 得 到 消息 。 








4.6 小结 


本 章 简 要 介绍 了 NoSQL 数据 库 的 基本 概念 ; 解释 了 有 关 流 行 NoSQL 数据 库 的 数据 模型 、 存 
储 方 案 和 配置 的 一 些 基础 知识 ; 展示 了 面向 列 数据 库 的 典型 构成 , 用 HBase 演示 了 一 些 共通 的 主 
题 ; 讲解 了 文档 数据 库 和 键 / 值 存储 的 内 部 结构 ; 最 后 介绍 了 最 终 一 致 性 数据 库 。 
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"hy 
执行 CRUD 操作 


O 介绍 NoSQL 数据 库 的 创建 、 读 取 、 更 新 和 删除 操作 
口 解释 为 什么 重视 创建 胜 过 更 新 

O 研究 更 新 操作 的 原子 性 和 完整 性 

口 解释 持久 化 相关 数据 的 各 种 方式 





本 操作 (创建 、 读 取 、 更 新 和 删除 ， 即 CRUD, 俗称 为 增删 改 查 ) 是 数据 交互 最 基本 
的 方式 。 所 以 了 解 如 何在 NoSQL 世界 中 应 用 这 些 操作 非常 重要 。NoSQL 并 不 是 一 个 
产品 或 一 项 技术 ， 而 是 一 类 数据 库 的 总 称 ， 因 此 CRUD 操作 的 含义 随 NoSQL 产品 不 同 而 变化 。 
不 过 它们 存在 这 样 一 个 共有 的 突出 特征 : 在 NoSQL 存储 中 ,创建 和 读 取 操作 比 更 新 和 删除 操作 
更 重要 ， 以 至 于 有 时 只 存在 创建 和 读 取 操作 。 在 接 下 来 的 几 节 中 ， 你 就 能 了 解 其 中 的 含义 。 当 我 
们 从 CRUD 操作 的 角度 逐渐 深入 探索 NoSQL 新 大 陆 时 ， 按 照 逻 辑 ， 相 关 的 内 容 会 被 划分 为 三 肖 
分 : 面向 列 的 、 以 文档 为 中 心 的 以 及 键 / 值 映 射 表 。 
CRUD 中 第 一 根 支柱 是 创建 操作 。 


5.1 创建 记录 


创建 记录 操作 几乎 不 用 定义 。 第 一 次 保存 一 条 新 记录 时 ,就 会 创建 一 个 新 条 目 。 这 章 味 着 应 
该 有 菏 种 方法 来 轻松 标识 一 条 记录 ， 以 及 确定 它 是 否 已 经 存在 。 如 果 存 在 ， 可 能 要 更 新 记录 ， 而 
不 是 重新 创建 记录 。 

关系 型 数据 库 中 ,记录 存储 在 表 中 ， 主 键 唯一 标识 所 有 记录 。 要 检查 一 条 记录 是 否 存 在 ， 只 
要 检查 记录 的 主键 是 否 在 表 里 就 行 。 如 果 一 条 记录 没有 主键 , 但 是 所 有 列 或 字段 的 值 都 与 已 存在 
的 一 条 记录 完全 匹配 ， 又 会 怎样 ? 这 正 是 事情 开始 变 得 环 手 的 地 方 。 

天 系 型 数据 库 维 护 春 由 E.F. Codd 引入 的 规 犯 化 原则 ， 它 是 关系 模型 的 一 部 分 。E.EF Codd 和 
Raymond F. Boyce 在 1974 年 提出 了 BC 范式 (BCNF, Boyce-Codd Normal Form )， 它 篆 被 看 作 保 
持 数据 库 结 构 规 范 化 的 最 低 要 求 。 不 严格 地 说 ,符合 范 式 的 结构 能 帮助 减少 对 记录 集 的 修改 , 这 
是 通过 只 保存 一 次 数据 , 在 需要 的 时 候 才 创建 对 相关 数据 的 引用 做 到 的 。 要 了 解 更 多 有 关 数 据 库 
规范 化 的 内 容 ,， 请 访问 http://en.wikipedia.org/wiki/Database normalization 和 http://databases.about. 
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com/od/specificproducts/a/normalization.htm, 

在 规范 化 结构 中 ,两 个 具有 相同 值 的 记录 就 是 相同 的 记录 。 因 此 实际 上 关系 模型 的 主键 〈 单 
一 列 ) 中 隐 含 着 按 值 比较 的 规则 。 在 编程 语言 的 世界 里 ,特别 是 在 面向 对 象 语 言 中 ， 这 个 概念 通 
各 被 符 换 成 按 引 用 比较 ， 每 个 唯一 记录 集 以 一 个 对 象 的 形式 存在 ， 对 象 用 内 存 地 址 唯一 标识 。 因 
为 NoSQL 数据 库 类 似 表格 结构 和 对 象 存储 ， 所 以 标识 的 语义 从 基于 信 的 到 基于 引用 的 都 有 。 但 
是 无 论 哪 种 情况 ， 唯 一 主键 标识 的 概念 都 非常 重要 ， 它 能 用 来 确定 一 条 记录 。 

大 多 数据 库 都 文 持 使 用 任意 字符 串 或 字 节 数组 作为 唯一 记录 键 , 除 此 外 , 它们 往往 还 会 预定 
义 一 些 规 则 以 确保 键 唯一 且 有 意义 。 而 在 一 些 效 据 库 里 ， 可 以 信 助 工具 函数 来 生成 主键 。 






































唯一 主键 

前 面 见 过 MongoDB 的 默认 BSON 对 象 标 识 (参见 前 一 草图 4-10 ), 它 是 由 12 个 字 节 构成 
一 个 键 ， 结 构 如 下 : 

O 开始 四 个 字 节 表示 时 间 稚 

口 跟 着 三 个 字 节 表示 机 器 标识 符 

口 跟着 二 个 字 节 表示 进程 标识 符 

口 最 后 三 个 字 节 是 顺序 或 者 递增 计数 器 

我 们 还 见 过 HBase 行 键 ,通常 由 字符 表示 的 字 节 数组 组 成 。HBase 行 键 通常 有 64 P$ KK, 
不 过 这 并 不 成 为 限制 , 尽管 更 大 的 键 会 占用 更 多 内 存 。HBase 的 数据 按 行 键 的 字 节 排序 ， 所 以 
定义 与 应 用 程序 有 关 的 逻辑 单元 作为 行 键 会 非常 有 用 。 








明白 了 记录 标识 符 ， 接 下 来 介绍 在 NoSQL 数据 库 中 如 何 创建 记录 。 前 面 几 章 中 ， 我 们 分 别 
使 用 MongoDB, HBase 和 Redis 作为 以 文档 为 中 心 的 、 面 癌 列 的 和 键 / 值 映 射 表 的 例子 。 在 本 克 
中 ， 会 再 次 利用 这 三 种 数据 库 。 


5.1.1 在 以 文档 为 中 心 的 数据 库 中 创建 记录 


很 多 关系 型 数据 库 都 使 用 过 一 个 典型 例子 , 这 个 例子 是 一 个 简化 的 零售 系统 , 用 来 创建 和 管 
理 订单 记录 。 每 个 人 在 商店 里 的 购买 都 形成 订单 ,一 个 订单 由 好 几 个 条 目 组 成 ,每 个 条 目 包 括 产 
un (RH) 和 购买 的 数量 。 条 目 还 包括 价格 ， 价 格 是 通过 计算 产品 单价 和 个 数 的 乘积 得 到 的 。 订 
单 表 有 一 个 相关 联 的 产品 表 ， 该 表 存 储 产品 描述 和 其 他 产品 相关 属性 。 图 5-1 用 传统 的 实体 关系 
图 描述 了 订单 、 产 品 和 它们 之 间 的 关系 表 。 

对 于 像 MongoDB 这 样 的 文档 存储 ， 要 保存 同样 的 数据 ， 需 要 对 结构 进行 去 规范 化 ， 把 每 个 
条 目 详情 和 订单 记录 本 映 一 起 存储 。 举 一 个 具体 的 例子 ， 比 如 有 一 个 包含 四 种 咖啡 的 订单 : 拿 铁 
1 份 , 卡 布 其 诺 1 份 ,普通 咖啡 2 份 ,这 个 咖啡 订单 会 以 舱 套 的 类 JSON 文档 形式 存储 在 MongoDB 
中 ， 如 下 所 示 : 
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订单 
订单 ID 
SequenceNO 










has 


订单 条 目 
WD (PK) 
< ProductID (PK) 
Quantity 








产品 
产品 ID 
SequenceNO 











order date: new Date(), 
"line items": [ 
i 
item : { 
name: "latte", 
unit price: 4.00€ 
1 
quantity: 1 


item: { 
name: "cappuccino", 
unit price: 4.25 

ys 

quantity: 1 


item: { 
name: "regular", 
unit price: 2.00 
Kg 
quantity: 2 


coffee order.txt 





打开 命令 行 窗 口 ， 转 到 MongoDB 的 根 目 录 下 面 ， 启 动 MongoDB IRIA: 
bin/mongod --dbpath -/data/db 
JE, ERIA B HUBS A TE P «el aEETIACH.: 


bin/mongc 
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用 命令 行 客 户 端 存储 咖啡 订单 ， 并 保存 在 myab 数据 库 的 orders 集合 里 。 命 令 行 中 部 分 命 
令 的 输入 和 输出 列举 如 下 : 


order date: new Date(), 
"line items": [ 
] 

E 


"order date" : "Sat Oct 30 2010 22:30:12 GMT-0700 (PDT)", 
"line items" : [ 


{ 





"item" : { 
"name" : "latte", 
"unit orice" : 4 
js 
"quantity" € 1 
23 
{ 
"item" : { 
"name" : "cappuccino", 
"unit price" ; 4,25 
Ja 
"quantity" : 1 
Ja 
{ 
"item" : { 
"name" : "regular", 
"unit_price" i 2 
du 
"quantity" 2 
} 


) 


> db.orders.save(t); 

> db.orders.find(); 

( " id" : Objectid("Acccff35d3c7ab3d1941p103"), "order date" : "Sat Oct 30 201C 
22:30:12 GMT-0700 (PDT)", "line items" : [ 


] j 


coffee order.txt 

RUE EE DUCERE THECESOCRA, BAERI AEREN AR S MERRIA, 将 

记录 集合 并 起 来 的 责任 就 落 到 了 开发 者 的 身上 。MongoDB 中 没有 数据 库 join 的 概念 ， 因 此 要 么 
在 客户 端 利 用 对 象 标识 符 手 工 实现 join 操作 ， 要 么 利用 DBRef。 
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DBRef 是 在 MongoDB 里 用 于 创建 文档 间 引 用 的 正式 规范 。DBRef 包括 集 
合 名 和 对 象 标识 符 。 更 多 关于 MongoDB DBRef 的 信息 请 访问 : www.mongodb. 
org/display/DOCS/Databaset+References#DatabaseReferences-DBRef。 












现在 我 们 调整 一 下 结构 , 不 把 产品 单价 存储 在 藤 套 文档 中 ， 而 是 保存 在 妨 外 一 个 集合 里 ,这 


个 集合 专门 存储 产品 信息 。 在 新 格式 中 ， 产 品名 是 连接 两 个 集合 的 关键 。 


这 样 ， 重 构 后 的 订单 数据 存储 在 orders2 集合 中 ， 如 下 所 示 : 


order date: new Date(), 
"line items": [ 
{ 
"item name":"latte", 
"gquantity":1 


"item name":"cappuccino", 
"quantity":1 


"ltem name":"regular", 


"quantity":2 


* 
H + 
"0c i 


"order date" : "Sat Oct 30 2010 23:03:31 GMT-0700 (PDT)", 
"line items" : [ 


{ 


"item name" : "latte", 
"quantity" s 1 

1 

[ 
"item name" : "cappuccino", 
"quantity" : 1 

F 

l 
"item name" : "regular", 
"quantity" : 2 


] 
} 


> db.orders2.save(t2); 


coffee order.txt 


要 确认 数据 被 正确 地 存储 ， 可 以 像 下 面 这 样 返回 集合 orders2 的 内 容 : 
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> db.orders2.find(); 
( " id" : ObjectId("4ccd06egd3c7ab3d1941b104"), "order date" : "Sat Oct 30 2010C 
23:03:31 GMT-0700 (PDT)", "line items" : [ 
{ 
"item name" : "latte", 
"quantity" : 1 
y 
] ] 
coffee order.txt 
下 面 ， 保 存 产 品 数据 ， 其 中 包括 产品 名 和 单价 ， 如 下 所 示 : 
> pl = f 
" id": "latte", 
"unit price":4 
is 
t * 1d" : "latte", "unit orice" : 4 } 
> db.products.save(ípl); 
coffee order.txt 
接着 可 以 使 用 fina 方法 验证 products 集合 中 的 记录 : 
> db.products.find(); 
{ *" 1d" : "latte", "unit price" s 4 j 
coffee order.txt 
现在 就 可 以 手工 连接 两 个 集合 并 取出 相关 数据 集 ， 如 下 所 示 : 
> orderl = db.orders2.findOne(); 
{ 
" id" : ObjectId("Accd06e8d3c7ab32319415104"), 
"order date" : "Sat Oct 30 2010 23:03:31 GMT-0700 (PDT)", 
"line items" : I 
i 
"item name" : "latte", 
"quantity" : 1 
Ja 
| 
"item name" : "cappuccino", 
"quantity" : 1 
m 
( 
"item name" : "regular", 
"quantity" : 2 
} 
] 
} 
> db.products.findOne( [ id: orderl.line items[0].item name } ); 
t" 18" : "latte", "unit price" : 4 } 
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除了 手工 处 理 ， 还 可 以 借助 DBRe£ 来 自动 完成 这 个 手工 过 程 的 一 部 分 ，DBRef 是 一 个 更 正 
式 的 用 来 关联 MongoDB 两 个 文档 集合 的 规范 。 要 演示 DBRef, 得 重新 调整 订单 例子 , 建立 关系 。 








首先 定义 产品 ， 然 后 设置 一 个 从 orders 集合 指 回 产品 的 DBRef。 





添加 latte. cappuccino, regular 及 其 对 应 的 单价 到 product2 集合 如 下 : 


> p4 = ["name":"latte", "unit price":4)]; 
( "name" : "latte", "unit price" : 4 j 
»p5-2í 
"name": "cappuccino", 
"unit. price':4,25 
13 
{ " 1d" : "cappuccino", "unit price" : 4,25 ] 
»po-i 
"name": "regular", 
"unit price':2 
); 
"id" e "regular", "ünmnmit price" : 2 } 


db.products2.save(p4); 
db.productsZ2.saveí(p5); 
db.products2.save(p6); 


VOV OM m s 


确认 所 有 三 个 产品 都 在 集合 中 : 


» db.products.find(); 


L * 1d* : ObjectId("4ccd1209d3c7ab3d1941b105"}), "name" 
"unit price" : 4 } 

| * 1g" s ObjectIid("4ccdl373d3c7ab3d1941b106"),， "name" 
"unit price" : 4.25 } 

{ * 1d" : Obgjectla("4codl377d3067ab3d1941bl107"), "name" 
"unit price" : 2 } 


coffee order.txt 


"Latte", 
"cappuccino", 


"regular", 


coffee order.txt 


接 下 来 ， 定义 一 个 新 的 orders 人 集合， 叫做 orders3， 并 用 DBRef 来 建立 order3 和 


products 之 间 的 关系 。 集 合 order3 可 以 定义 如 下 : 


order date: new Date(), 
"I15e items": T 


{ 


"item name": new DBRef('products2', p4. 


"quantity:1 

Ja 

t 
"ltem name": new DBRef('products2', p5. 
"quantity":1 

F 


"item name": new DBRef('products2', p6. 


"quantity":2 
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i 34 
db.orders3.save(t3); 


coffee order.txt 


在 MongoDB 中 创建 记录 的 过 程 非常 简单 ， 有些 关系 可 以 用 DBRet 建立 。 接 下 来 ,我们 来 了 
解 面 回 列 数据 库 的 创建 操作 。 


5.1.2 ”面向 列 数据 库 的 创建 操作 


与 MongoDB 不 同 ， 面 向 列 数 据 库 没有 定义 任何 关系 引用 的 概念 。 和 有 所 有 NoSQL 产品 一 样 ， 
它们 也 避免 了 集合 之 间 的 连接 , 所 以 不 存在 外 键 或 路 集合 约束 之 类 的 概念 。 列 数据 库 采 用 去 规范 
化 的 方式 存储 集合 , 几乎 类 似 于 一 个 存储 大 量 去 规范 化 事务 记录 的 数据 仓库 事实 表 。 列 数据 库 里 
数据 是 这 样 存储 的 : 每 个 行 键 唯一 标识 一 条 记录 ， 一 个 列 族 的 所 有 列 存储 在 一 起 。 

面 问 列 的 数据 库 ， 特 别 是 HBase， 也 有 一 个 保存 数据 的 时 间 维 度 。 因 此 创建 (数据 插入 ) 操 
作 非 常 重要 ,而 更 新 操作 的 概念 基本 上 就 不 存在 了 。 举 个 例子 来 看 看 。 假设 需 要 创建 和 维护 一 个 
巨大 的 目录 ,包含 不 同类 型 的 产品 信息 ， 其 中 关于 产品 类 型 、 类 别 、 特 征 、 价 格 和 来 源 的 信息 可 
以 有 很 大 的 变化 。 我 们 要 创建 一 个 表 ， 包含 类 型 、 特 征 和 来 源 三 个 列 族 。 每 个 属性 或 字段 (或 者 
说 列 ) 都 从 属于 这 些 列 族 中 的 一 个 。 要 在 HBase 中 创建 这 个 集合 ( 产品 表 )， 首 先 启 动 HBase 服 
务 器 ， 然 后 用 HBase shell 连 上 服务 器 。 要 启动 HBase 服务 器 ， 打 开 一 个 命令 行 窗口 或 终端 ， 并 
调整 使 其 进入 HBase 安装 目录 ， 接 着 以 本 地 模式 启动 HBase 服务 器 ， 操 作 如 下 : 

bin/start-hbase.sh 

启动 男 一 个 命令 行 窗 口 并 用 HBase shell e EHE $5 : 

bin/hbase shell 

BE Rok, GU product X: 


hbase(main):001:0» create 'products', 'type', 'characteristics', 'source' 
O0 row(s) in 1.1570 seconds 


























products hbase.txt 


创建 好 表 以 后 ， 就 可 以 存 数据 了 。HBase 使 用 put 关键 字 表 示 数 据 创建 操作 。 单 词 “put” 
说 明 数据 搬入 是 类 似 哈 希 映 射 表 的 操作 ,又 加 上 Hbase 内 部 很 像 一 个 散 套 的 哈 希 表 ， 因此 它 可 能 
比 create 关键 字 更 合适 。 

要 创建 一 个 包含 下 列 字 上 段 的 记录 : 

L] type:category = "coffee beans" 

L] type:name = "arabica" 

ü type:genus = "Coffea" 


L] characteristics: cultivation method = "organic" 
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0 row(s) in 0.0050 seconds 
hbase (main):008:0» 


Q characteristics: acidity = "low" 

L] source: country = "yemen" 

L] source: terrain = "mountainous" 

可 以 像 下 面 这 文 样 把 它 已 插入 products 表 中 : 

hbase(main):001:0» put 'products', 'producti', 'type:category', 'coffee beans' 

0 row(s) in 0.0710 seconds 

hbase(main):002:0» put 'products', 'producti', 'type:name', 'arabica' 

0 row(s) in 0.0020 seconds 

hbase(main):003:0» put 'products', 'productl', 'type:genus', 'Coffea' 

0 row(s) in 0.0050 seconds 

hbase(main):004:0» put 'products', 'productl1', 

'characteristics: cultivation method', 'organic' 

0 row(s) in 0.0060 seconds 

hbase(main):005:0» put 'products', 'producti', 'characteristics: acidity', 'low' 

0 row(s) in 0.0030 seconds 

hbaseí(main):006:0» put 'products', 'productl', 'source: country', 'yemen' 

0 row(s) in 0.0050 seconds 

hbase(main):007:0» put 'products', 'productl', 'gource: terrain', 'mountainous' 
( 
( 


products hbase.txt 


现在 查询 同一 条 记录 以 确保 它 已 经 被 放 入 存储 中 。 获 取 记 录 的 操作 如 下 : 


hbase (main) :008:0> get 'products', 'product1' 
COLUMN CELL 
characteristics: acidity timestamp=1288555025970, value-1o 


characteristics: cultivatio timestamp=1288554998029, value=organic 
n method 


Source: country timestamp-1288555050543, value-yemen 
source: terrain timestamp-1288555088136, value-zmountainous 
type:category timestamp-1288554892522, value-coffee beans 
type:genus timestamp-1288554961942, value-Coffea 
type:name timestamp-1288554934169, value-Arabica 


7 row(s) in 0.0190 seconds 
products hbase.txt 


如 果 再 存 一 次 type:category 的 值 ， 这 次 用 beans 代替 coffee beans, 会 怎样 呢 ? 


hbaseí(main):009:0» put 'products', 'producti', 'type:category', 'beans' 
0 row{s) in 0.0050 seconds 


products hbase.txt 


现在 ， 如 朱 再 次 获取 记录 ， 那 么 输出 如 下 : 


hbase(main):010:0» get 'products', 'product1' 
COLUMN CELL 
characteristics: acidity timestamp-1288555025970, value-low 


characteristics: cultivatio timestamp-1288554998029, value-organic 
n method 
Source: country timestamp-1288555050543, value-yemen 

Source: terrain timestamp-1288555088136, value-zmountainous 
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type:category timestamp-1288555272656, value-beans 
type:genus timestamp-1288554961942, value-Coffea 
type:name timestamp-1288554934169, value-Arabica 


7 xowis) in 0.0370 seconds 


products bbase.txt 


现在 type:category 的 值 是 beans MJE coffee beans。 但 是 实际 上 ， 两 个 值 都 是 作为 
同一 个 字段 值 的 不 同 厂 本 被 保存 起 来 ， 只 是 默认 会 返回 其 中 的 最 新 值 。 要 查看 type:category 
字段 最 近 的 四 个 版 本 ， 执 行 下 面 的 命令 : 
hbase(main):011:0» get 'products', 'producti', { COLUMN => 'type:category', 
VERSIONS => 4 } 














COLUMN CELL 
type:category timestamp-1288555272656, value-beans 
type:category timestamp-1288554892522, value-coffee beans 


目前 只 有 两 个 版 本 ， 所 以 就 只 返回 了 这 些 。 
如 条 数 据 是 结构 化 的 有 限 的 ,而 且 天 生 就 是 天 系 型 的 , 那么 有 可 能 HBase 并 不 是 正确 的 解 
决 方案 。 
HBase 使 数据 的 结构 遍 平 化 ， 只 有 列 族 和 它 包 含 的 列 之 间 才 有 层次 关系 。 此 外 ， 它 还 按时 间 
维度 存储 每 个 单元 格 的 数据 ， 所 以 将 数据 存储 和 HBase 前 ， 需 要 对 骸 套 的 数据 进行 扁平 化 处 理 。 
下 面 来 分 析 零 售 订单 系统 的 问题 。 在 HBase 中 ， 和 零售 订单 数据 可 以 用 以 下 多 种 方式 存储 。 
口 届 平 化 所 有 数据 ， 把 一 个 订单 的 所 有 字段 (包括 所 有 产品 数据 ) 都 存储 到 一 条 记录 中 。 
O 每 个 订单 的 所 有 订单 条 目 存储 在 一 条 记录 中 。 产 品 信息 单独 放 一 个 表 ， 对 产品 行 键 的 引 
用 和 订单 条 目 信 息 保存 在 一 起 。 
如 采 选 第 一 种 方案 ， 就 要 做 出 下 面 这 些 决定 。 
a 为 普通 的 条 目 创 建 一 个 列 族 ， 然 后 为 其 他 类 型 的 条 目 〈 比 如 打折 或 回扣 ) 创建 为 一 个 
列 族 。 
口 在 一 个 普通 条 目的 列 族 里 ， 可 以 有 这 些 列 : 条 目 或 产品 名 、 条 目 或 产品 描述 、 数 量 和 价 
格 。 如 采 全 部 数据 都 要 扁平 化 ， 记 得 每 个 条 目 都 要 分 配 不 同 的 键 ， 不然 它 们 最 终 会 变 成 
同一 键 / 值 对 的 不 同 版 本 。 比 如 产品 名 应 该 叫 product_name_1 ,和 干 万 别 都 叫 
product_nameo 


下 一 个 例子 将 使 用 Redis REREAD e pa eia 


.3 键 / 值 映 射 表 的 创建 操作 


Redis 是 一 种 简单 强大 的 数据 结构 服务 硕 ， 文 持 以 和 从 单 的 键 / 值 对 或 集合 元 素 的 形式 来 存储 数 
据 。 每 个 键 / 值 对 可 以 是 独立 的 字符 串 映 射 表 ， 也 可 以 放 在 集合 里 。 一 个 集合 可 以 是 以 下 任何 类 
型 : 列表 (1list )、 无 序 表 (set )、 有 序 表 (sorted set ) 或 哈 希 表 (hash )。 单 独 的 字符 串 键 / 值 对 很 
像 一 个 可 以 接受 字符 串 值 的 变量 。 

创建 一 个 Redis 字符 串 键 / 值 映射 表 : 


























5. 


— 
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./redis-cli set akey avalue 

可 以 用 get 命令 来 确认 创建 成 功 : 

./redis-cli get akey 

um CIEAWNBPEL) 是 avalue, set 方法 和 create 方法 (或 者 put 方法 ) 相同 。 如 果 再 次 
调用 set 方法 ， 并 对 akey 使 用 值 anothervalue， 原 来 的 值 会 被 新 值 蔡 换 。 试 着 输入 : 


./redis-cli set akey anothervalue 
./redis-cli get akey 


结果 肯定 是 新 值 anothervalue, 
字符 串 方 法 set 和 get 不 能 用 于 Redis 集合。 例如, 用 1push 和 rpush 来 创建 和 填充 一 个 
列表 ， 一 个 尚 不 存在 的 列表 可 以 和 它 的 第 一 个 成 员 一 起 被 创建 ， 像 这 样 : 


./redis-cli lpush list of books 'MongoDB: The Definitive Guide' 





books list redis.txt 


可 以 使 用 范围 操作 来 确认 和 查看 列表 list of books 的 前 面 几 个 成 员 ， 像 这 样 : 
./redis-cli lrange list of books 0 -1 


1. "MongoDB: The Definitive Guide" 


books list redis.txt 


范围 操作 使 用 第 一 个 元 素 的 索引 0 和 最 后 一 个 元 素 的 索引 -1 来 获取 列表 中 的 所 有 元 素 。 

在 Redis 中 ,如果 查 询 一 个 不 存在 的 列表 ， 它 会 返回 一 个 空 列表 ， 不 会 抛 出 异常 。 可 以 像 下 
面 这 样 对 一 个 不 存在 的 列表 mylist 执行 范围 操作 : 

./redis-cli lrange mylist 0 -1 

Redis 会 返回 消息 : empty list or set。 可 以 像 使 用 lpush 那样 用 rpush 添加 一 个 新 成 
员 到 mylist 中 ， 像 这 样 : 

./redis-cli rpush mylist 'a member' 

现在 mylist 肯定 不 是 空 的 了 上 ， 使 用 范围 查询 可 以 揭示 出 a member 的 存在 。 

成 员 可 以 从 列表 的 左 侧 或 右 侧 插入 列表 中 , 也 可 以 从 任 一 方向 弹出 。 这 样 就 可 以 把 列表 当 作 
队列 或 栈 来 使 用 。 

无 序 集 可 以 用 SADD 操作 添加 成 员 。 因 此 ， 可 以 用 下 面 的 命令 添加 成 员 'a set member' 
到 无 序 集 aset H: 

./redis-cli sadd aset 'a set member' 

命令 行程 序 返 回 整数 值 1, 确认 'a set member ' 已 经 被 添加 进 无 序 集 。 再 次 执行 同样 的 
SADD 命令 , 成 员 不 会 被 重复 添加 。 无 序 集 对 同一 个 值 仅 保存 一 份 , 因此 一 旦 已 经 存在 就 不 会 再 
添加 了 。 注 意 程序 返回 0 作为 啊 应 ， 这 意味 着 没有 添加 成 员 。 与 无 序 集 类 似 ， 有 序 集 中 每 个 成 员 
也 只 保存 一 份 ， 不 过 有 序 集 像 列 表 - 样 有 顺序 。 可 以 轻松 瀛 加 成 员 'a Sset member ' 到 有 序 集 
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azset 中 ， 像 这 样 : 

./redis-cli zadd azset 1 'a sset member' 

l 代表 有 序 集 成 员 的 位 置 (或 分 值 Ja 下 面 再 添加 男 外 一 个 成 员 'Sset member 2 到 同一 个 
有 序 集 中 : 

./redis-cli zadd azset 4 'sset member 2' 

is 4 T2 ULT SERE BI vo. HI i E n] VAS AAAH DUET ATRASE zrange, 
可 以 像 下 面 这 样 获 取 包 含 前 五 个 值 的 范围 : 


./redis-cli zrange azset 0 4 
1. "a sset member" 
2. "sset member 2" 


ARTS II AAE (或 分 值 ) 为 3 的 值 会 怎样 呢 ? 在 已 经 存在 值 的 位 置 〈 或 分 值 ) 4 上 添加 

















呢 ? 
沃 加 一 个 分 值 为 3 的 全 到 azset 中 ， 如 下 : 
./redis-cli zadd azset 3 'member 3' 
ZE ÍT zrange 查询 如 下 : 
./redis-cli zrange azset 0 4 
2 


1. "a sset member" 
2. "member 3" 
3. "sset member 2" 


再 添加 位 置 〈 或 分 值 29 3 的 什 ， 像 这 样 : 

./redis-cli zadd azset 3 'member 3 again' 

然后 运行 zrange 查询 : 

./redis-cli zrange azset 0 4 

可 以 看 出 ， 为 适应 新 成 员 ， 有 序 集中 的 成 员 被 重新 定位 : 


1. "a sset member" 
2. "member 3" 

3. "member 3 again" 
4. "sset member 2" 


因此 ， 添 加 新 成 员 到 有 序 集 中 不 会 替换 掉 已 经 存在 的 值 ， 而 是 会 按 需 对 成 员 重 新 排序 。 
Redis 还 定义 了 一 个 哈 希 的 概念 ， 其 中 可 以 这 样 添加 成 员 : 


./redis-cli hset bank accounti 2350 
./redis-cli hset bank account2 430C 


可 以 用 haec 命令 或 其 变种 hgetall 确认 成 员 存 在 ， 输 入 : 
./redis-cli hgetall bank 


ZUERST i BUE. PIER PTRDOOUREBIEE — 1 ESSAIS i E: 








图 灵 社 区 会 员 DanyLee € z& 尊重 版 权 


96 第 53: ”执行 CRUD 操作 


./redis-cli hset product:fruits apple 1.35 
./redis-cli hset product:fruits banana 2.20 


数据 被 保存 到 任何 一 种 NoSQL 数据 存储 中 后 ， 束 害 要 去 访问 和 获取 它们 。 毕 范 ， 保 存 数据 
的 意义 就 是 以 后 还 能 再 拿 出 来 用 。 


5.2 访问 数据 


前 面 我 们 见 过 一 些 访问 数据 的 方法 。 为 了 验证 记录 已 被 创建 ， 使 用 过 一 些 最 简单 的 get fn 
令 。 较 早 的 革 市 里 也 演示 了 一 些 标准 的 查询 机 制 。 
接 下 来 学 习 几 种 高 阶 数 据 访问 方法 、 语 法 和 语义 。 




















5.2.1 用 MongoDB 访 问 文档 


MongoDB 的 文档 查询 使 用 与 SQL 非常 类 似 的 语法 和 语义 。 比较 讽刺 的 是 , 这 种 SQL 相似 性 
使 得 NoSQL 的 MongoDB 查询 文档 非常 方便 和 强大 。 

前 面 草 节 里 我 们 已 经 熟悉 了 查询 文档 的 使 用 ， 所 以 可 以 直接 开始 访问 MongoDB REX. 
这 次 我 们 还 是 用 前 面 草 节 里 创建 好 的 mydb 数据 库 的 orders 集合 。 

启动 MongoDB k34, MH mongo JavaScript shell i£ E Čo PÍT use mydb MATK M] mydb 
数据 库 。 首 先 ， 获 取 orders 集合 中 的 所 有 文档 : 

db.orders.rinadt 


现在 过 滤 集 合 。 获 取 20104EF 10 H 25 日 后 的 所 有 订单 ， 即 order date KF 20104E 10 月 
25 日 。 先 创建 一 个 日 期 对 象 。 在 JavaScript shell 中 可 以 这 样 做 : 

var refdate = new Date(2010, 9, 25); 

JavaScript 日 期 中 月 份 从 0 而 非 1 开始 , 所 以 数字 9 表示 10 Ho TE Python 中 ,要 创建 同样 的 
变量 可 以 像 这 样 写 : 


from datetime import datetime 
refdate = datetime(2010, 10, 25) 


在 Ruby 里 是 这 样 : 


require 'date' 
refdate - Date.new(2010, 10, 25j 











接着 ， 把 refdate 传人 比较 带 来 比较 order date 字段 值 和 refdate。 查 询 如 下 : 


db.orders.find(Íí"order date": {sgt: refdatell); 

MongoDB 文 持 丰富 多 样 的 比较 带 ， 包 括 小 于 、 大 于 、 小 于 等 于 、 大 于 等 于 、 等 于 、 不 等 于 。 
此 外 ， 它 还 支持 集合 的 包含 和 排除 ， 例 如 是 否 包 含 在 或 不 在 给 定 集 合 里 。 

数据 集 是 航 套 文档 ， 所 以 如 果 能 按 航 套 属 性 值 查询 会 非 第 有用。 在 MongoDB 里 这 很 容易 。 
你 可 以 使 用 点 符号 遍历 树 ， 访 问 任何 般 套 字段 。 例 如 要 获取 orders 集合 中 条 目 名 称 为 latter 
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的 所 有 文档 ， 查 询 可 以 这 人 么 写 : 

db.orders.find({ "line items.item.name" : "latte" }) 

无 论据 侄 的 是 单 值 还 是 列表 ， 点 从 写 (orders 集合 的 例子 ) 都 能 

MongoDB 的 表达 式 匹 配 文 持 使 用 正则 表达 式 。 正 则 表达 式 除 了 可 以 用 于 顶层 字段 外 ， 也 可 
以 用 于 瞬 套 文档 ， 二 者 方式 相同 。 

在 关系 型 数据 库 里 , 索引 是 一 种 非 沼 聪明 的 用 来 改进 查询 速度 的 方法 。 它 的 工作 方式 非常 何 
单 。 宗 引 提 供 基 于 类 B 树 结构 的 融 效 查询 机 制 , 避免 了 全 表 扫 指 。 由 于 减少 了 查询 相关 记录 需要 
查找 的 数据 ， 因 此 查询 变 得 更 快 更 遍 效 。 

MongoDB 文 持 用 索引 提高 查询 速度 。 所 有 集合 于 认 帮 按 _iaq ERI BRIAR Ah, 
MongoDB 还 支持 创建 二 级 索引 。 二 级 索引 可 以 建 在 顶层 字段 或 艇 套 字 段 上 。 例 如 ， 可 以 在 条 日 
的 数量 字段 上 建 一 个 索引 : 



































db.orders.ensureIndex({ "line items.quantity" : 1 )); 
现在 ， 查 询 数量 为 2 的 条 目 就 变 得 非常 快 了 。 试 着 运行 下 面 的 查询 : 
db.orders.find((Í "line items.quantity" : 2 】) 





索引 和 表 分 开 单 独 存 储 ， 你 可 能 还 记得 前 面 草 节 提 到 过 它们 会 单独 占用 命名 空间 吧 ? 
MongoDB 的 数据 访问 看 起 来 非常 答 单 、 丰 富 和 人 健壮。 然而， 不 是 上 有 NoSQL 存储 都 这 样 ， 
特别 是 面 癌 列 数据 库 。 





5.2.2 ”用 HBase 访 问 数据 


HBase 上 基于 行 键 的 查询 是 最 简单 最 高 效 的 。HBase 的 行 键 是 有 序 的 ， 且 连续 的 行 键 存储 在 
一 起 。 因 此 碍 找 一 个 行 键 通 背 来 说 承 意 味 痢 找 出 起 始 行 键 小 于 等 于 给 定 行 键 的 最 大 有 序 范围 。 

这 意味 痢 为 一 个 应 用 程序 设计 正确 的 行 键 极其 重要 。 把 行 键 和 数据 在 语义 上 关联 起 来 通常 是 
个 好 主意 。 在 Google Bigtable 研究 论文 里 ,， 行 键 是 由 反 辐 域名 组 成 的 ,这样 一 来 所 有 和 同一 个 域 
名 有 关 的 内 容 就 都 被 组 织 到 了 一 起 。 根 据 这 些 准 则 ,条 目 或 产品 名 、 订 单 日 期 及 可 能 的 分 类 , 三 
者 组 合作 为 orders 表 的 行 键 可 能 就 是 一 个 好 想法 。 根据 数 据 最 和 党 访问 的 模式 ,这 三 个 字段 的 组 
合 次 序 会 有 所 变化 。 如 有 果 订 单 经 常 按时 间 顺 序 访 问 ， 那 就 可 以 这 样 创建 行 键 : 

«date» + «timestamp» + «category» + «product» 

如 采 按 分 类 和 产品 名 访问 订单 最 频繁 ， 那 就 这 样 创建 行 键 : 

«category» + «product» + «date» + «timestamp» 

尽管 行 键 非常 重要 ,并 为 大 量 数据 的 场景 提供 了 高 效 查询 机 制 , 但 是 二 级 索引 内 建 的 文 持 却 
很 少 。 任 何 没 有 利用 行 键 的 查询 都 会 导致 表 扫 摘 ， 而 表 扫 描 成 本 昂 贯 而 且 速 度 缓慢 。 

第 三 方 工具 , 例如 Lucene ( 28228 5| SEfE28 ), 可 以 帮助 在 HBase 表 上 建立 二 级 索引 。 接 下 来 ， 
我 们 回顾 查询 数据 结构 服务 器 Redis。 
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5.2.3 ”查询 Redis 


查询 Redis 和 癌 其 中 插入 记录 一 样 人 简单 优雅 。 前面 我 们 学 习 了 可 以 通过 get 命令 获取 特定 字 
符 串 的 值 : 

./redis-cli get akey 

或 者 获取 列表 一 个 范围 里 的 值 : 

./redis-cli lrange list of books 0 4 

类 似 地 ， 可 以 获取 一 个 无 序 集 的 成 员 : 

./redis-cli smembers asset 

或 者 是 有 序 集 的 成 员 : 

./redis-cli zrevrange azset 0 4 

集合 操作 ( 包括 求 交 集 、 合 集 和 差 集 ) 可 以 分 别 通过 SINTER, SUNION 和 sDIFF 命令 非常 
容易 地 执行 。 

当 我 们 从 关系 型 世界 转向 NoSQL 世界 时 ， 和 常 听 到 人 们 谈论 的 并 不 是 数据 创建 或 查询 ， 而 是 
数据 更 新 和 事务 完整 性 的 内 容 。 

接 下 来 ,我 们 将 探索 在 NoSQL 数据 库 中 数据 是 如 何 更 新 和 修改 的 。 


5.3 更 新 和 删除 数据 


关系 型 世界 深 植 于 ACID 语义 之 上 ， 以 此 为 基础 提供 数据 库 完 整 性 ， 并 对 数据 的 更 新 和 修 
改 文 持 不 同 的 隔离 级 别 。 与 其 相反 ，NoSQL 并 不 重视 ACID 事务 ， 在 某 些 情况 下 甚至 会 完全 忽 
Wi 

首先 要 了 解 ACID 的 含义 。ACID 是 Atomicity, Consistency, Isolation 和 Durability 的 首 字 母 
缩写 ， 即 原子 性 、 一 至 性、 隔离 性 和 持久 性 。 不 正式 地 说 ,原子 性 是 指 交 易 要 么 完整 执行 ,要么 
HR, 一致 性 是 指 为 使 数据 库 从 一 种 一 致 状态 变 为 男 一 种 一 致 状态 而 对 它 进行 的 修改 , 不 存在 不 
一 致 或 混乱 的 状态 。 隅 离 性 确保 一 个 操作 正在 执行 时 ， 其 他 进程 不 能 修改 它 正 在 使 用 的 数据 。 持 
久 性 意味 看 所 有 已 提交 的 数据 都 可 以 从 任何 系统 故障 中 恢复 。 

和 其 他 童 贡 一样， 我 会 逐个 介绍 不 同类 型 的 NoSQL 数据 库 ， 首 先 从 MongoDB 开始 。 









































5.3.1 使 用 MongoDB、HBase 和 Redis 更 新 及 修改 数据 


和 关系 型 数据 库 不 同 ， 锁 的 概念 在 NoSQL 存储 中 不 存在 。 这 是 一 个 设计 决定 ， 不 是 巧合 。 
像 MongoDB 这 样 的 数据 库 的 设计 初衷 就 是 为 了 分 片 和 可 扩展 。 这 种 情况 下 ， 锁 定 多 个 分 布 式 分 
片 就 会 变 得 非常 复杂 ， 而 且 会 使 数据 的 更 新 变 得 非常 缓慢 。 

尽管 缺少 锁 , 却 有 一 些 技 巧 可 以 帮助 实现 原子 的 数据 更 新 。 Boo. 更 新 整个 文档 而 不 是 字段 。 
最 好 使 用 原子 性 方法 来 更 新 文档 。 可 用 的 原子 性 方法 包括 下 面 这 些 。 
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L] $set: 设置 一 个 值 。 

O $inc: 按 给 定量 增加 一 个 指定 信 。 

O $push: 问 数 组 添加 一 个 值 。 

O $pushall: 癌 数 组 添加 一 组 值 。 

O $pull: 从 已 有 数组 中 删除 一 个 值 。 

O $pulla11: 从 已 有 数组 中 删除 一 组 值 。 

例如 ， ( Sset : { "order date" : new Date(2010, 10, 01) } ag. (8 FH TIEN 
法 更 新 了 orders 集合 中 的 order. date 字段 。 

妨 一 种 策略 是 如 果 没 变 就 进行 更 新 。 这 基本 上 涉及 以 下 三 步 。 

(1) 获取 对 象 。 

(2) 在 本 地 修改 对 象 。 

(3) 发 送 这 样 一 个 更 新 请 求 : 如 果 对 和 象 还 能 匹配 旧 值 的 话 ， 就 把 它 更 新 成 这 个 新 值 。 

文档 或 行 级 锁 ， 以 及 原子 性 也 同样 适用 于 HBase。 

HBase 文 持 行 级 别 的 读 写 锁 。 这 意味 着 如 果 行 的 任何 列 值 正 在 被 修改 、 更 新 或 是 创建 ， 则 行 
会 被 锁定 。 在 HBase 术语 里 , 创建 和 更 新 之 间 的 区 别 并 不 是 很 明显 。 这 两 种 操作 都 执行 类 似 的 逻 
辑 。 如 末 值 不 存在 就 是 插入 操作 ， 否 则 是 更 新 。 

此 行 级 锁 是 一 个 非常 棒 的 注意 ,但 是 在 空 行 上 获得 锁 除 外 , 因为 它 会 一 下 不 可 用 百 到 超时 。 

Redis 里 文 持 有 限 的 事务 ， 一 个 操作 可 以 在 这 样 的 事务 的 范围 内 执行 。Redis 的 MULTI 命令 
会 初始 化 一 个 事务 。 执 行 MULTI 以 后 用 EXEC 执行 所 有 命令 ， 用 DISCARD 回 滚 操作 。 下 面 给 
出 一 个 人 简单 的 例子 ， 我 们 来 看 看 如 何 原 子 地 更 新 两 个 刍 : keyl 和 key2 : 

> MULTI 

OK 

> INCR keyl 

QUEUED 

> INCR key2 

QUEUED 

> EXEC 


1) (integer) 1 
2) (integer) 1 






































5.3.2. 有限 原子 性 和 事务 完整 性 


尽管 各 数据 库 对 原子 性 的 最 低 文 持 有 所 不 同 , 但 是 它们 中 许多 都 有 一 个 相似 的 特点 。 本 市 将 
介绍 围绕 CAP 理论 和 最 终 一 致 性 的 一 些 更 普遍 的 思路 。 

CAP 理论 指出 以 下 三 个 目标 中 在 同一 时 间 只 能 最 大 化 两 个 。 

O 一 致 性 ( Consistency ): 每 个 客户 端 都 看 到 同样 的 数据 。 

O 可 用 性 〈Availability ): 每 个 客户 端 都 可 以 读 写 。 

口 分 区 容忍 性 ( Partition tolerance ): 系统 跨越 分 布 式 物理 网 络 仍然 工作 良好 。 

更 多 有 关 CAP 理论 及 其 对 NoSQL 的 影响 会 在 第 9 章 中 介绍 。 
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另 一 个 经 稼 出 现 的 话题 是 最 终 一 致 性 。 这 个 术语 有 时 令 人 困惑 ， 而 且 和 稼 没有 被 正确 理解 。 

最 终 一 致 性 是 用 在 并 行 编程 和 分 布 式 编程 领域 中 的 一 致 性 模型 。 最 终 一 致 性 可 以 用 如 下 两 种 
方式 来 解读 。 

O 给 定 足 够 长 的 一 段 时 间 ， 期 间 不 发 送 更 新 ， 就 可 以 认为 所 有 更 新 最 终 会 传播 到 整个 系统 ， 

上 且 所 有 副本 都 会 达到 一 致 。 

口 当 存 在 持续 的 更 新 时 ， 一 个 被 接 受 的 更 新 最 终 要 人 么 到 达 副 本 ， 要 么 重 试 。 

与 ACID 相对 ， 最终 一 致 性 意味 着 基本 上 可 用 (Basically Available )、 软 状态 ( Softstate ) 以 
及 最 终 一 致 (Eventual consistency ) ( BASE )， 这 点 我 们 曾 在 前 文 提 到 过 。 




















5.4 ”小 结 


RAETIA S NoSQL 数据 库 基 本 的 创建 、 读 取 、 更 新 和 删除 操作 , 探讨 了 三 种 NoSQL 存储 的 
基本 操作 ， 即 文档 存储 、 面 回 列 存储 和 键 / 值 哈 硕 映射 表 。MongoDB 代表 文档 存储 ，HBase 代表 
列 存储 ，Redis 代表 键 / 信 哈 硕 映 射 表 。 

在 讨论 中 明显 发 现 , 对 所 有 数据 存储 来 说 , 数据 的 创建 或 插 和 人 比 更 新 更 重要 。 在 某 些 情况 下 ， 
更 新 是 受 限 制 的 。 在 本 章 最 后 ， 还 解释 了 更 新 、 事 务 完整 性 和 一 致 性 。 
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2 s 
查询 NoSQL 存储 


本 章 内 容 

a 使 用 样 合 数据 集 演示 几 种 NoSQL 查询 机 制 
口 MongoDB HBase 和 Redis 的 查询 用 例 

O NoSQL 高 阶 查 询 

O 支持 丰富 查询 能 力 的 SQL 替代 品 











QL 可 能 是 迄今 为 止 最 简单 又 最 强大 的 领域 特定 语言 了。 因为 词汇 有 限 、 语 义 明确 、 语 
法 人 简单， 所 以 SQL 简单 易学 。 它 非常 简洁 ， 使 用 范围 有 限 ， 严 格 按照 设计 目的 运行 。 
它 让 我 们 像 忍 者 一 样 操作 结构 化 数据 集 。 你 可 以 轻松 地 过 滤 、 排 序 、 切 分 数据 集 。 基 于 关系 ， 你 
可 以 连接 数据 集 创 建交 集 和 合集 , 也 可 以 汇总 数据 集 , 按 特定 属性 进行 分 组 或 按 分 组 条 件 进行 过 
滤 。 不 过 SQL 还 是 存在 一 个 限制 : SQL 基于 关系 代数 ， 后 者 只 对 关系 数据 库 适 用 。 因 此 ， 正 如 
其 名 ，NoSQL 中 没有 SQL. 
SQL 的 缺失 并 不 意味 着 不 能 查询 数据 集 。 Hen. 任何 数据 的 存储 目的 都 是 随后 可 以 再 获取 和 
操作 。 对 于 访问 和 操作 数据 ，NoSQL 存储 有 它们 上 自己 的 方式 ， 前 面 我 们 已 经 见 过 一 些 。 
NoSQL 实际 上 是 NonRel, 即 非 关 系 型 ,NoSQL 的 创建 者 和 支持 者 之 所 以 远离 关系 型 数据 库 ， 
是 因为 关系 型 数据 库 强 加 了 结构 关系 约束 和 ACID 事务 , 特别 是 它们 阻碍 了 扩展 和 处 理 大 型 数据 
集 , 但 是 他 们 并 不 一 定 反 对 SOL. EXE, 在 NoSQL 世界 里 一 些 人 仍然 渴望 拥有 SQL, ERA 
建 出 语法 和 风格 类 似 经 典 SQL 的 查询 语言 。 旧 习 难 改 ， 更 何况 这 还 是 好 习惯 ! 
本 章 中 ， 我 们 将 学 到 许多 查询 NoSQL 存储 的 技巧 。 正 如 前 几 章 通过 多 个 产品 和 不 同 技术 进 
行 学 习 一 样 ， 本 章 将 从 查询 MongoDB 中 存储 的 数据 集 开 始 ， 然 后 再 履 盖 HBase 和 Redis。 


6.1 SQL 5 MongoDB 查询 功能 的 相似 点 


MongoDB 是 文档 数据 库 ， 和 关系 型 数据 库 几 乎 没有 相似 之 处 ， 但 是 MongoDB 的 查询 语言 
感觉 非常 像 SQL。 前 面 我 们 已 经 见 过 一 些 人 简单 的 例子 , 所 以 这 儿 我 假设 不 需要 再 举例 说 明 它 的 类 
SQL 查询 特性 。 

要 理解 MongoDB 查询 语言 的 能 力 ， 看 它 如 何 执 行 ， 首 先 得 把 数据 集 加 载 到 MongoDB 数据 
库 中 。 到 现在 为 止 ， 本 书 所 使 用 的 数据 集 都 比较 小 ， 因 为 重点 是 介绍 MongoDB 的 核心 功能 ， 而 
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不 是 它 在 现实 场景 中 的 应 用 。 不 过 在 本 章 中 ， 我 要 使 用 一 个 稍 大 一 些 的 数据 集 : MovieLens 数据 
集 ， 其 中 包括 上 百 万 行 电 影评 分 记录 。 











MovieLens 

美国 明尼苏达 大 学 计算 机 科学 与 工程 系 的 GroupLens 研究 实验 室 进 行 的 一 系列 研究 包括 : 

口 推荐 系统 (Recommender systems ); 

口 在 线 社 区 (Online communities ); 

口 移动 和 普 适 技术 (Mobile and ubiquitous technologies ); 

口 数 字 图 书馆 (Digital libraries ); 

口 本 地 地 理 信 息 系 统 (Local geographic information systems ). 

MovieLens 数据 集 是 对 外 可 用 的 GroupLens 数据 集 的 一 部 分 , 它 包 含 了 用 户 对 电影 的 评分 。 
它 是 一 个 结构 化 数据 集 ， 提 供 三 个 不 同 的 下 载 包 ， 分 别 包含 10 万 、100 万 、1000 万 条 记录 。 
数据 集 可 以 在 如 下 地 址 下 载 : grouplens.org/node/73 。 





首先 ， 去 grouplens.org/node/73 下 载 包 含 100 万 条 电影 评分 记录 的 数据 集 。 可 用 的 下 载 包 包 
A tar.gz(〈 打 包 和 压缩 的 ) 和 .zip 压缩 格式 。 选 择 最 合适 你 的 平台 的 版 本 。 获 得 压 揣 包 后 ， 
把 内 容 解 压 到 一 个 目录 下 面 。 解 压 完 成 后 ， 应 该 得 到 下 面 三 个 文件 : 

Q movies.dat 

L] ratings.dat 

Q users.dat 

其 中 movies.dat 数据 文件 包括 电影 本 和 号 的 数据 。 这 个 文件 包含 3952 条 记录 ， 每 行 一 条 。 
记录 保存 的 格式 如 下 : 

<MovieID>::<Title>::<Genres> 

MovieId 是 一 个 简单 的 整数 序列 。Title 是 电影 标题 字符 串 ， 里 面 还 包含 电影 发 行 年 份 ， 列 
在 电影 标题 后 面 的 圆 括 号 里 。 电 影 标题 和 存储 在 IMDB (Internet Movie Database， 互 联网 电影 净 
据 库 ， 地 址 是 www.imdb.com ) 中 的 相同 。 每 部 电影 可 能 属于 多 个 类 型 ， 不 同类 型 用 管 赴 符 分 陋 
的 格式 显示 。 文 件 的 示例 行 如 下 : 

1::Toy Story (1995)::Animation|Children's|Comedy 

文件 ratings.dat 中 包含 了 超过 6000 位 用 户 对 那 3952 部 电影 的 评分 ， 评 分 文件 拥有 超过 
100 万 条 记录 。 每 行 一 条 ， 格 式 如 下 : 

UserID::MovieID::Rating::Timestamp 

UserID 和 MovieID 分 别 标识 并 建立 用 户 和 电影 的 关系 。 评 分 Rat ing 是 5 分 制 oTimestamp 
是 评分 被 记录 的 时 间 。 

users.dat 文件 是 打分 用 户 的 数据 ， 其 中 包含 了 超过 6000 位 用 户 的 信息 ， 格 式 如 下 : 


UserID::Gender::Age::Occupation::Zip-code 
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6.1.1 加 载 MovieLens 数 据 


为 了 简单 起 见 , 将 数据 上 传 到 三 个 MongoDB 集合 中 ,分 别 是 : movies. ratings 和 users， 
每 个 集合 各 对 应 一 个 .aat 数据 文件 .mongoimport 工具 ( www.mongodb.org/display/DOCS/Import-- 
Export- Tools ) 适合 用 来 把 数据 从 .aat 文件 中 提取 出 来 并 加 载 到 MongoDB 文档 存储 中 ,但 可 惜 
在 这 儿 不 能 用 。 因 为 MovieLens 数据 使 用 双 冒 号 C: : ) 字符 分 隔 , 而 mongoimport 只 识别 JSON, 
iiM. Tab 分 隔 的 格式 。 

所 以 我 退回 到 使 用 编程 语言 和 MongoDB 驱动 来 解析 文本 文件 ， 并 加 载 数据 集 到 MongoDB 
集合 中 。 为 了 简洁 ， 我 选择 Ruby。 你 还 可 以 使 用 Python. (也 很 简洁 优雅 )、Java、PHP 、C 或 者 
其 他 任何 所 文 持 的 声言 。 

如 代码 清单 6-1 所 示 的 一 小 段 代 人 码 , 分 别 从 users, movies 和 ratings 数据 文件 中 提取 数 
据 并 加 载 到 各 目的 MongoDB 集合 中 。 这 段 代码 使 用 了 简单 的 文件 读 取 和 字符 串 分 割 功能 ， 以 及 
MongoDB 驱动 来 完成 任务 。 代 人 码 本 时 并 不 是 最 优雅 的 。 它 没有 考虑 异 和 常 处 理 或 者 快速 处 理 特大 
文件 的 情况 ， 但 是 能 解决 眼前 的 问题 。 


32 代码 清单 6-1  movielens dataloader.rb 


require 'rubygems' #Ruby 1.9 里 可 以 跳 过 这 行 
require 'mongo' 


























field map = { 


"users" => $wí( id gender age occupation zip code), 
"movies" => £wí( id title genres), 


"ratings" => £wí(user id movie id rating timestamp) 


} 


db = Mongo::Connection.new.db("mydb") 


collection, map = ( 
"users" => db.collection("users"), 
"movies" => db.collection ("movies"), 


"ratings" => db.collection("ratings") 


} 


unless ARGV.length == 1 
puts "Usage: movielens dataloader data filename" 
exit(0) 

end 


class Array 
def to h(key definition) 
result hash = Hash.new() 


counter = 0 
key definition.each do |definition| 


if not self[counter] -- nil then 
if self[counter].is a? Array or self[counter].is a? Integer then 
result hash[definition] = self[counter] 
else 
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result hash[definition] = self[counter].strip 
end 
else 


E 对 每 个 键 插入 一 个 空 值 ， 因 为 可 能 还 需要 哈 希 中 包含 这 些 刍 


result hash[definition] = "" 


end 
* 由 于 某 种 原因 ，counter.next 在 这 里 用 不 了 
counter = counter + 1 

end 


return result hash 
end 
end 


if File.exists? (ARGV[0]) 
file = File.open(ARGV[0], 'r') 
data set = ARGV[0].chomp.splití(".")[0] 
file.each ( |line| 
field names - field map[data set] 


field values = line.split("::").map { |item| 
if item.to i.to s == item 
item = item.to 1 
else 
item 
end 


} 
puts "field values: #¥{fijeld values]" 
#1last field value = line.split("::").last 
last field value - field values.last 
puts "last field value: #{last field value)" 
if last field value.split("|").length » 1 
field values.pop 
field values.push(last field value.split().join(' n').eplit("|*) 
end 
field values doc - field values.to h(field names) 
collection map[data set]l.insertí(field values doc) 
} 
puts "inserted $í(collection map[data setl.count()) records into the 
&(collection map[data set].to s) collection" 
end 


movielens dataloader.rb 


数据 加 载 完 , 就 做 好 查询 准备 了 。 查询 可 以 通过 JavaScript shell 或 者 任何 文 持 的 语言 来 执行 。 

对 这 个 例子 来 说 ， 大 多 数 查 询 都 用 JavaScript shell a ， 男 外 我 还 选 出 一 小 部 分 例子 用 其 他 的 

编程 语言 和 它们 各 目的 驱动 来 执行 。 包含 编 程 语 言 样 例 的 主要 目的 是 为 了 说 明 : 大 多 数 C 即便 不 
是 全 部 ) 用 JavaScript shell 实现 的 查询 也 可 以 用 其 他 语言 驱动 实现 。 

开始 查询 前 ， 先 启动 MongoDB IKI 25 , 并 用 Mongo shell 连接 上 。 记 这 些 必要 的 程序 都 放 在 

MongoDB 安装 目录 的 bin 子 目录 下 。 前 面 草 市 已 经 启动 过 MongoDB 多 次 , 希望 你 现在 已 经 非常 
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在 Mongo JavaScript shell 中 ， 先 获取 ratings 集合 所 有 记录 的 总 数 ， 如 下 所 示 : 

db.ratings.count(); 

啊 应 中 应 该 能 看 到 1000209。 因 为 上 传 了 超过 100 万 条 评分 ， 所 以 这 个 数 看 起 来 应 该 是 正 
确 的 。 

接 下 来 ， 我 们 用 如 下 的 命令 获取 评分 数据 的 一 个 样本 集 : 

db.ratings.find(); 

在 shell 里 面 无 需 显 式 使 用 游标 来 打印 集合 中 的 记录 。shell 限制 了 每 次 返回 的 行 数 最 大 值 为 
20。 要 遍历 更 多 数据 ， 只 需 键 入 it (iterate 的 缩写 )。it 命令 的 啊 应 包含 另外 20 条 记录 ， 如 
ARR I TE shell 中 已 经 看 到 的 记录 外 ， 还 有 更 多 记录 ，shell 会 显示 “has more". 

评分 数据 ， 比 如 { " id" : objectId("4cdcflea5a918708b0000001") , "user id" : 
1, "movie TO =: 1193, "rating" : 5, "timestamp" : "978300760" }; 几乎 不 能 市 
来 对 相关 电影 的 任何 直观 的 感觉 ， 因 为 它 包 含 的 是 电影 标识 符 ， 不 是 电影 名 。 要 解决 这 个 问题 ， 
震 要 问答 下 列 问题 : 

Q 如 何 获取 给 定 电 影 的 所 有 评分 ? 

Q 如 何 获取 给 定 评 分 的 电影 信息 ? 

Q 如 何 将 电影 和 按 电影 分 组 的 评分 结合 起 来 ? 

在 关系 型 数据 库 中 ， 要 遍历 这 些 关 系 会 用 到 联接 (join), 在 MongoDB 中 ， 这 种 关系 数据 是 
在 服务 融 范 围 外 显 式 关联 起 来 的 。MongoDB 定义 了 DBRef 的 概念 ， 用 来 建立 两 个 不 同 集合 中 两 
个 字段 之 间 的 关系 , 但 是 这 种 方式 存在 一 些 限 制 ， 而 且 和 显 式 的 基于 标识 符 的 联接 也 不 等 同 。 本 
PRASETA DBRef， 但 是 会 涵盖 前 面 草 节 提 到 的 少量 DBRef 的 例子 ， 这 些 例子 后 面 草 市 
还 会 再 用 到 。 

要 获得 给 定 电影 的 所 有 评分 , 可 以 用 电影 标识 符 作 为 条 件 过 滤 数 据 集 。 例 如 ,要 显示 和 著名 的 
奥斯卡 金 像 奖 电影 Titanic 的 所 有 评分 , 需要 首先 找 出 它 的 标识 符 , 然后 用 这 个 标识 符 过 滤 ratings 
集合 。 如 采 不 能 百分之百 地 确定 电影 Titanic 的 标题 , 但 是 确定 标题 里 包含 了 单词 titanic， 就 可 以 
试看 近似 (而 非 准 确 地 ) 匹配 movies 集合 中 的 标题 字符 串 。 在 RDBMS 中 ,要 在 这 种 情况 下 找 
出 电影 标识 符 ， 可 能 束 要 在 SQL 的 where 子 句 中 使 用 1ike 表达 式 来 获取 所 有 候选 者 的 名 单 。 
在 MongoDB 中 ,没有 like 表达 式 , 但 是 有 更 强大 的 功能 ， 即 用 正则 表达 式 来 定义 匹配 模式 。 
要 获取 movies 集合 中 所 有 标题 中 包括 Titanic 或 titanic 的 记录 ， 可 以 像 这 样 查 询 : 


db.movies.find((í title: /titanic/il); 


这 个 查询 会 返回 下 面 的 文档 集 : 




































































(" id": 1721, "title" : "Titanic (1997)", "genres" : [ "Drama", "Romance" ] } 
{ "id": 2157, "title" : "Chambermaid on the Titanic, The (1998)", "genres" : 
"Romance" } 

( " id": 3403, "title" : "Raise the Titanic (1980)", "genres" : [ "Drama", 
"Thriller" ] } 

I "_id" : 3404, "title" s "Titanic (1953)", "genres" s [ "Action", "Drama" ] Jj 
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MovieLens 数据 集 的 标题 字段 包含 了 电影 发 行 年 份 。 在 标题 字段 中 ， 发 行 年 份 包 舍 在 圆 括号 
中 。 所 以 如 果 记 得 或 者 恰好 知道 电影 Titanic 是 1997 年 发 行 的 ， 就 可 以 写 出 一 个 更 优化 的 查询 表 
达 式 : 

dD sw 

这 样 仅 返 回 一 个 文档 : 

{ "_1id" : 1721, "title" : "Titanic (1997)", "genres" : [ "Drama", "Romance" ] } 

文 个 表达 式 会 查找 所 有 包含 Titanic. titanic, TitaniC 或 是 TiTAnic 的 标题 字符 串 ， 即 忽略 大 
小 写 。 此 外 ， 它 还 会 查找 字符 串 ( 1997 )。 它 还 指定 在 titanic 4 (1997) 之 间 ， 以 及 〈1997 ) 之 
后 可 以 有 0 个 或 多 个 字符 。 对 正则 表达 式 的 支持 是 非 第 强大 的 特性 ， 午 握 它 永远 是 值得 的 。 

合 ratings 里 movie_id 字段 值 的 范围 是 由 movies 集合 的 _ia 字段 定义 的 。 所 以 要 获 
取 电 影 Titanic (标识 符 为 1721 ) 的 所 有 评分 ， 可 以 像 这 样 查询 : 

db.ratings.find(( movie id: 1721 )); 

要 找 出 电影 Titanic 的 评分 总 数 ， 可 以 这 样 做 : 

db.ratings.find(( movie id: 1721 )j).count(); 

结果 是 1546。 评 分 是 5 分 制 的 。 要 获取 电影 Titanic 所 有 5 星 评分 的 列表 和 总 数 ， 可 以 
一 步 过 滤 记 录 集 如 下 : 


db.ratings.find(([í movie id: 1721, rating: 5 )); 























db.ratings.find(( movie id: 1721, rating: 5 )).count(); 


查询 文档 的 数据 类 型 敏感 性 

MongoDB 查询 文档 是 数据 类 型 敏感 的 ,也 就 是 说 { movie id: “1721”} 和 { movie id: 
2 aa 一 定 要 使 
用 正确 的 数据 类 型 。 为 了 进一步 说 明 ， 举 个 例子 ， 在 ratings 和 movies 集合 中 movie id 
是 作为 数字 ( 整数 ) 存储 的 ， 因 此 按 字 符 串 a "di ix. 所 以 对 查询 
db.ratings.find((movie id: 1721 )) , "& Jj iR wm] € 1546 ^ x dB, mx 
db.ratings.find(( movie id: "1721"})， 则 没有 返回 任何 文档 ， 

仔细 浏览 代码 清单 6-1, AGES TESAUS. 


field values = line.split("::").map { |item| 
if item.to_i.to_s == item 
item = item.to_i 
else 
item 
end 


} 


这 段 代 码 检 查 被 分 割 的 字符 串 中 是 否 包含 整数 值 ， wR AAA S 付出 这 一 点 额 
外 的 努力 ,将 数值 型 字符 串 保 存 为 数字 有 它 的 好 处 。 在 数值 型 记录 上 做 索引 和 查询 通常 比 在 字 
符 FRF) 记录 上 做 更 快 更 高 效 。 
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接 下 来 ,你 可 能 希望 获取 一 些 Titanic 评分 的 统计 信息 。 要 找 出 用 户 给 出 的 所 有 不 同 的 评分 
(1 到 5 的 可 能 的 整数 集合 )， 可 以 查询 如 下 : 
db.runCommand{({ distinct: 'ratings', key: 'rating', query: { movie id: 1721} )); 
电影 Titanic 的 评分 包括 了 从 1 到 5 所 有 可 能 的 情况 ， 所 以 结果 是 这 样 的 : 
to "yaluss™ $ [ Ly 2y Dr 42 3 Je “OR” S£ jg 
runCommand 接受 下 面 的 参数 : 
O distinct 字段 指定 集合 名 。 
O key 字段 指定 需要 列 出 唯一 值 的 字段 。 
O query 字段 可 选 ， 用 于 过 滤 集 合 。 
runCommand 和 你 到 目前 为 止 所 见 过 的 其 他 查询 模式 有 一 点 点 不 同 , 这 是 因为 在 查找 唯一 值 
前 ， 先 对 集合 进行 了 过 小 。 集 合 中 所 有 评分 的 唯一 值 可 以 用 我 们 已 知 的 方式 列 出 来 ， 如 下 所 示 : 
db.ratings.distinct ("rating"); 
上 面 我 们 已 知 对 Titanic 的 评分 包括 从 1 到 5 所 有 可 能 的 值 。 要 想 进 一 步 了 解 其 中 每 个 评分 ， 
可 以 对 每 个 分 值 分 别 汇总 如 下 : 
db.ratings.group( 
. ( key: [ rating:true }, 
Initial: 4 gdounb:9 J; 


cond: { movie 1id:1721 ), 
reduce: function(obj, prev) { prev.count--*; ) 











人 一 








ME 
"UTD 
分 组 查询 的 输出 是 如 下 的 数组 : 


E-——* 


| 
"rating" : 4, 
"count" : 500 
t 
i 
"rating" : 1, 
"count" : 100 
3 
{ 
"rating" : 5, 
"count" : 389 
z 
i 
"rating" : 3, 
j "count" : 381 
| 
"rating" : 2, 
"count" : 176 
} 
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分 组 函数 在 单个 MongoDB 实例 上 用 起 来 非常 方便 ， 但 在 分 斤 部 署 环 境 中 无 法 使 用 。 在 分 斤 
的 MongoDB 部 署 环 境 中 ， 要 使 用 MongoDB 的 MapReduce 工具 来 运行 分 组 函数 。 等 我 解释 完 分 
组 操作 ， 会 给 出 一 个 MapReduce 版 本 的 分 组 函数 。 

分 组 操作 的 输入 是 一 个 对 象 ， 它 包括 以 下 字段 。 

O Key: 分 组 用 的 字段 。 前 面 例子 里 只 用 了 一 个 字段 rating。 额 外 的 字段 可 以 用 逗号 分 隔 

的 列表 包含 进来 ,共同 作为 key 字段 的 值 ,例如 key: { £1eldA: true, fieldB: true). 

O initial: 聚合 的 初始 值 。 前 面 例子 里 初始 的 计数 值 (count) 为 0。 

D cond: 过 波 集 合 的 查询 文档 。 

O reduce: 聚合 函数 。 

O keyf CT): 当 所 需 的 键 不 包含 在 已 有 文档 中 时 ， 用 来 奉 代 它 的 铂 生 键 。 

O finalize (可 选 ): 在 肾 合 函数 遍历 的 每 个 条 目 上 运行 的 函数 。 可 用 来 修改 已 有 条 目 。 

理论 上 , 前 面 的 例子 应 该 能 很 容易 改 成 对 每 部 电影 按 分 值 进行 分 组 ,只 要 使 用 下 面 的 分 组 操 
作 即 可 : 


db.ratings.group( 
. { key: ( movie id:true, rating:true }, 
initials { count:0 }, 
reduce: function(obj, prev) { prev.count++; ) 





























但 是 现实 是 ， 这 个 操作 对 拥有 100 万 记录 的 ratings 集合 不 可 行 ， 你 会 得 到 下 面 这 样 的 错 


Fri Nov 12 14:27:03 uncaught exception: group command failed: { 


"errmsg" : "exception: group() can't handle more than 10000 unique keys", 
"code" : 10043, 
"ok" : 0 


} 

结果 要 以 单个 BSON 对 象 的 形式 返回 ， 因 此 分 组 操作 执行 的 集合 中 键 的 个 数 不 能 超过 1 万 。 
这 个 限制 可 以 通过 MapReduce 工具 来 克服 。 

下 一 万 将 介绍 MongoDB 的 MapReduce 工具 ， 还 会 在 整个 评分 数据 集 上 执行 一 些 聚 合 晒 数 。 














6.1.2 ”MongoDB 中 的 MapReduce 








MapReduce 是 Google 申请 了 专利 的 软件 框架 ， 文 持 在 大 型 分 布 式 集群 上 进行 分 布 式 计算 。 
你 可 以 在 题 为 “MapReduce: Simplified Data Processing on Large Clusters” WIARE XP AAR 
Google MapReduce 的 内 容 ， 地 址 是 : http://labs.google.com/papers/mapreduce.html。 

Google MapReduce 框 染 为 开源 社区 中 许多 相似 产品 和 分 布 式 计算 框架 种 来 了 灵感 ， 
MongoDB 就 是 其 中 一 个 。Google 和 MongoDB 的 MapReduce 功能 同样 从 函数 式 编程 世界 的 类 似 
结构 中 得 到 了 启发 。 在 函数 式 编程 中 ，map 函数 应 用 于 集合 的 每 个 成 员 ， 而 reduce 函数 或 者 fold 
国 数 在 整个 集合 上 进行 聚合 。 
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MongoDB 的 MapReduce 功能 与 Google 的 MapReduce 并 不 完全 相同 。 
Hadoop 的 MapReduce 是 Google 分 布 式 计 算 理 念 的 开源 实现 ,而 且 同 时 支持 列 
数据 库 (HBase ) 和 基于 MapReduce 的 计算 。 












掌握 MapReduce 可 能 听 起 来 是 件 挺 难 的 事 儿 , 不 过 一 旦 明白 了 它 的 结构 和 流程 , MapReduce 
就 能 变 成 非常 好 的 助手 , 可 以 帮助 我 们 在 分 布 式 的 数据 集合 上 执行 大 规模 计算 。 所 以 我 们 最 好 先 
从 简单 的 例子 开始 ， 然 后 接触 更 复杂 的 例子 ， 这 样 学 习 起 来 比较 容易 ， 并 且 更 容易 掌握 主题 。 

最 简单 的 聚合 的 例子 如 怕 就 是 对 集合 中 的 条 目 进 行 计数 了 。 要 使 用 MapReduce, 首先 要 定义 
map PŽ reduce ŠT, 然后 在 集合 上 执行 map 和 reduce 图 数 。 map 函数 对 集合 中 的 每 个 元 
条 都 执行 同一 个 函数 ， 并 返回 一 个 键 / 值 对 作为 输出 。 然 后 reduce 函数 用 map 困 数 输出 的 键 / 值 
对 做 为 输入 ， 在 所 有 人 键 / 值 对 上 执行 附 合 阴 数 ， 得 到 最 终结 果 。 

计算 users 集合 中 女性 受 访 者 (FF ) 和 男性 受 访 者 (MM ) 数量 的 map 函数 如 下 : 


> var map = function() { 
. emit(( gender:this.gender }, { count:1 )); 


v 43 














movielens queries.txt 


这 个 map 图 数 对 集合 中 的 每 个 条 目 生 成 一 个 键 / 值 对 ， 其 中 包含 gender 属性 和 计数 ， 计 数 
定 值 为 1。 
reduce 图 数 用 来 计算 所 有 用 户 中 出 现 的 男性 和 女性 总 数 ， 定 义 如 下 : 
> var reduce = function(key, values) { 
. var count = 0; 
. values.forEach(function(v) { 


. count += wl]'eount]: 


a T4 





. return { count:eount 3; 


T 


movielens queries.txt 


reduce PRAE map PKZ HARE TED] o 在 这 个 特定 的 reduce PKR , 每 个 键 / 值 对 的 
值 被 传递 给 一 个 用 于 计算 (特定 性 别 ) 总 数 的 函数 。 借 助 JavaScript 可 以 把 对 象 成 员 和 值 当 作 哈 
希 数 据 结 构 来 访问 的 能 力 ， 代 码 count += Vv['count'] 也 可 以 写作 count += v.count。 

最 后 ,对 users 集合 运行 map 和 reduce 因数 ,产生 users 集合 中 女性 和 男性 总 数 的 输出 。 
mapReduce 运行 和 result 解析 命令 如 下 : 


> var ratings respondents by gender = db.users.mapReduce(map, reduce); 
> ratings respondents by gender 


( 


"result" : "tmp.mr.mapreduce 1290399924 2", 
"timeMillis" : 538, 
"counts" $ { 
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"input" : 6040, 
"emit" : 6040, 


"output" : 2 
Ja 
tok" x 1; 
} 
> db[ratings respondents by gender.result].find(); 
( " id" : { "gender" : "PF" ), "value" : { "count" : 1709 ) } 
{ * qid" x 1 "gender" : "M" }, "value" : { "count" : 4331 } } 


movielens queries.txt 


为 了 验证 输出 ， 分 别 按 性 别 值 EF 和 M 过滤 users 集合 ， 然 后 对 每 个 过 滤 出 来 的 子 集 的 文档 
进行 计数 。 按 性 别 F 和 M 对 users 集合 进行 过 滤 并 计数 的 命令 如 下 : 

> db.users.find(( "gender":"F" jJ).count(); 

1709 


> db.users.find(( "gender":"M" Jj).count(); 
4331 





movielens queries.txt 


接 下 来 稍微 修改 一 下 map 函数 ,然后 在 ratings 集合 上 运行 map fll reduce 因数 ,获取 每 
部 电影 每 个 评分 (1、2、3、4 和 5 ) 的 总 数 ， 即 按 每 部 电影 的 评分 分 组 计数 。 下 面 是 在 ratings 
集合 上 运行 的 map 和 reduce 国 数 的 完整 定义 : 
> var map = function() { 
. emit(( movie id:this.movie id, rating:this.rating ), { count:1 )); 
9d 
> var reduce = function(key, values) ( 
. var count = 0: 
. values.forEach(function(v) { 


. count += v['count']; 


3 


. return { count: count ); 
24 
> var group by movies by rating = db.ratings.mapReduce(map, reduce); 
> db[group by movies by rating.result].find(); 


movielens queries.txt 


要 获取 电影 Titanic (标识 符 movie ia 为 1721) 每 种 评分 的 总 数 ， 只 需 用 山 套 属性 访问 方 
法 过 滤 MapReduce 的 输出 ， 像 这 样 : 





> db[group by movies by rating.result].find(( " id.movie id":1721 )); 

t * id” s: { "movie rd" : 1721, "rating" : 1 }, "value" s { "count" s 100 } } 
{ qa" ( "movie id" : 1721, "rating" : 2 ], "value" { "count" : 176 } j 
£o" ld" { "movie id" 1721, "rating" 3 ), "value" { "count" : 381 } J 
Low id" ( "movie id" : 1721, "rating" 4 ), "value" t "count" : 500 } } 
{ " jd" { "movie id" : 1721, "rating" 5 1, "value" ( "count" : 389 } } 




















movielens queries.txt 
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到 目前 为 止 的 两 个 MapReduce 例子 中 ，reduce 函数 相同 map PRIUS TIR]. PAD PA EC [ri] 
的 键 / 值 对 都 生成 计数 值 1。 一 个 例子 中 为 每 个 文档 生成 的 键 / 值 对 包含 性 别 属性 ， 男 一 个 例子 为 
文档 生成 的 键 / 值 对 的 键 是 电影 标识 人 特 和 评分 标识 从 的 组 合 。 

下 面 ， 计 算 ratings 集合 中 每 部 电影 的 平均 评分 : 

> var map = function() { 


. emit(( movie id:this.movie id }, ( rating:this.rating, count:1 )); 


sq 


> var reduce = function(key, values) ( 
. var sum = 0; 
. var count = 0; 
. values.forEach(function(í(v) { 
. sum += v['rating']; 
. Count += wvl'ecount']: 


ua 


... return { average:(sum/count) }; 

& y 
> var average rating per movie = db.ratings.mapReduce(í(map, reduce); 
> db[average rating per movie.result].find(); 


movielens queries.txt 


MapReduce 文 持 编写 多 种 复杂 的 聚合 算法 , ARS RRR RBS, 还 有 一 些 将 在 本 书后 面 
的 部 分 里 介绍 。 

现在 你 已 经 了 解 了 多 种 MongoDB 集合 的 查询 方式 下面 我 们 熟悉 一 下 表格 型 数据 库 的 查询 ， 
我 们 将 用 HBase 来 演示 查询 机 制 。 


6.2 访问 HBase 等 面向 列 效 据 库 中 的 效 气 


在 开始 查询 HBase 前 , 需要 先 存 一 些 数据 进去 。 和 MongoDB 一 样 ， 前 面 我 们 简单 了 解 过 使 用 
HBase 存储 和 访问 数据 的 方法 ， 包 括 它 的 底层 文件 系统 ， 这 个 通常 默认 是 Hadoop 分 布 式 文件 系统 
( HDFS )。 我 们 还 了 解 了 HBase 和 Hadoop 的 基础 知识 。 本 节 是 以 这 些 知 识 为 基础 的 。 为 了 让 例子 真 
实 可 用 , 我 们 将 1970 年 至 2010 年 2 月 NYSE 每 日 股票 市 场 的 历史 数据 加 载 到 HBase 实例 中 , 然后 用 
HBase 的 查询 机 制 访问 这 些 数据 。 这 些 历史 数据 是 从 Infochimp.org 的 原始 数据 里 整理 出 来 的 , 可 以 通 
过 下 面 的 地 址 访问 : www.infochimps.com/datasets/nyse-daily-1970-2010-open-close-high-low-and-volume。 


历史 市 场 数 据 


整个 数据 集 的 zip 包 大 概 有 199MB ， 不 过 按 HDFS 和 HBase 的 标准 离 “ 大 ”还 很 远 。HBase 
和 Hadoop 基础 设施 能 够 而 且 经 常 被 用 来 处 理 PB 级 、 跨 越 多 台 物 理 机 的 数据 。 这 个 例子 里 我 特 
意 选 择 了 一 个 易于 管理 的 数据 集 , 主要 是 为 了 避免 因 准 备 和 加 载 大 数据 集 的 事情 而 分 心 。 本 童 的 
主要 内 容 是 NoSQL 存储 的 查询 方法 ， 这 一 节 重 点 关注 面向 列 数据 库 。 使 用 更 小 的 数据 集 来 学 习 
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数据 访问 方法 更 可 控 ， 而 且 学 到 的 概念 也 同样 适用 于 更 大 量 的 数据 。 


样 例 的 数据 字段 逻辑 上 分 为 以 下 三 个 不 同 种 类 。 

口 外 汇 、 股 票 代 码 和 日 期 的 组 合作 为 唯一 标识 。 

口 开盘 、 高 、 低 、 收 盘 价 及 调整 过 的 收盘 价 作 为 价格 的 考量 。 

OQ 每 日 成 交 量 。 

行 键 可 以 用 外 汇 、 股 票 代 码 和 日 期 的 组 合 来 创建 。 这 样 NYSE, AA, 2008-02-27 可 以 构成 





行 键 NYSEAA20080227。 所 有 价格 相关 的 信息 可 以 存储 在 名 为 price 的 列 族 中 ， 而 交易 量 可 以 
存储 在 volume 列 族 中 。 


Hi, 


RZN historical daily stock _price。 要 获得 NYSE, AA. 2008-02-27 的 记录 数 
可 以 这 样 查 询 : 

get 'historical daily stock price', 'NYSEAA20080227!' 

n] LCEEAR BOT H8 DER : 

get 'historical daily stock price', 'NYSEAA20080227', 'price:open' 

也 可 以 用 编程 语言 来 查询 数据 ,下 面 是 一 个 Java 样 例 程序 , 用 来 获取 开盘 和 高 点 的 价格 数据 : 


import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.io.RowResult; 











import java.util.HashMap; 
import java.util.Map; 
import java.io.IOException; 


public class HBaseConnector { 


public static Map retrievePriceData(String rowKey) throws IOException { 

HTable table = new HTable (new HBaseConfigurationí), 
"historical daily stock price"); 

Map stockData = new HashMap(); 


RowResult result = table.getRow(rowKey); 


for (byte[] column : result.keySet()) { 
stockData.put(new String(column), new 

String(result.getí(column).getValue())); 

j 


return stockData; 


} 


public static void main(String[] args) throws IOException { 
Map stock data - HBaseConnector.retrievePriceData("NYSEAA20080227"); 
System.out.println(stock data.getí("price:open")); 
System.out.printlní(stock data.get("price:high")); 


HbaseConnector.java 
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除了 我 们 已 经 演示 过 的 部 分 以 外 ， 基 本 上 HBase 再 没 包含 多 少 高 级 的 查询 技术 了 ， 但 是 它 
的 驼 引 和 和 查询 能 力 可 以 依 助 Lucene 和 Hive 进行 扩展 。 使 用 Hive 和 HBase WHM 5 TE? 12 Æ 
里 演示 。 


6.3 查询 Redis 数据 存储 


和 MongoDB, HBase 一 样 ， 前 面 章 节 里 我 们 也 用 过 了 Redis。 在 过 去 的 几 章 里 我 们 学 习 了 在 
Redis 中 存储 和 访问 数据 的 基本 知识 。 本 方 将 更 进一步 深入 数据 查询 主题 。 和 到 目前 为 止 的 其 他 
演示 一 样 ， 首 先 要 加 载 样 例 数 据 集 到 Redis 实例 中 。 

为 了 演示 ， 我 用 到 了 可 以 从 www.nyc.gov/data 在 线 获取 的 停车 设施 NYC 数据 挖掘 公共 源 数 
据 。 可 下 载 的 数据 是 CSV 格式 ， 名 为 parking_facilities.csv。 代码 清单 6-2 的 Python f£ 
序 可 以 用 来 解析 CSV 格式 数据 ， 并 将 其 加 载 入 本 地 Redis 存储 。 记 得 在 运行 Python 脚本 来 加 载 
数据 前 ， 先 局 动 Redis 安装 目录 里 的 Redis-server 程序 ， 它 会 启动 Redis IKA AXA, BRA UTY 
H 6379 上 的 客户 端 连接 。 


C D 代码 清单 6-2 解析 NYC 停车 设施 数据 的 Python 程序 


import csv 
import redis 

















f = opení("parking facilities.csv", "r")J 
parking facilities = csv.DictReader(f, delimiter-','") 
r = reéedis.Redis(host-'localhost', port=6379, db=0) 


def add parking facilityí(license number, 

facility. type, 

entity name, 

camis trade name, 

address bldg, 

address street name, 

address location, 

address city, 

address state, 

address zip code, 

telephone number, 

number of spaces): 

if r.sadd("parking facilities set", license number): 

r.hsetí("parking facility:$s" $ license number, "facility type", 
facility type) 

r.hsetí("parking facility:$s" $ license number, "entity name", 
entity name) 

r.hset("parking facility:$s" $ license number, "camis trade name", 
camis trade name) 

r.hsetí("parking facility:$s" % license number, "address bldg", 
address bldg) 

r.hsetí("parking facility:$s" % license number, "address street name", 
address street name) 

r.hset("parking facility:$s" $ license number, "address location", 
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address location) 

r.hsetí("parking facility:$s" $ license number, "address city", 
address city) 

r.hsetí("parking facility:£ 
address state) 

r.hsetí("parking facility:$s" 
address zip code) 

r.hset("parking facility:$g" $ license number, "telephone number", 
telephone number) 

r.hset("parking facility:$s" % license number, "number of spaces", 
number of spaces) 

return True 

else: 
return False 


license number, "address state", 


Ui 
ge 


oe 


license number, "address zip code", 


if | name  -- " main ": 
tor parking facility hash in parking facilities: 
add parking facility(parking facility hash['License Number'], 
parking facility hash['Facility Type'], 
parking facility hash['Entity Name'], 
parking facility hash['Camis Trade Name'], 
parking facility hash['Address Bldg'], 
parking facility hash['Address Street Name'], 
parking facility hash['Address Location'], 
parking facility hash['Address City'], 
parking facility hash['Address State'], 
parking facility hash['Address Zip Code'], 
parking facility hash['Telephone Number'], 
parking facility hash['Number of Spaces']) 
print "added parking facility with £s" € parking facility hash['License 
Number ' ] 


nyc parking data loader.py 


这 个 Python FEF Im D] PERE RERIK, 然后 把 值 保 存 到 Redis 实例 中 。 PUO 
以 许可 证 号 为 键 。 所 有 许可 证 号 都 保存 在 名 为 parking_facilities_set 的 集 

要 获取 parking_facilities_set 里 所 有 的 许可 证 号 ， 用 另 一 个 程序 或 是 命令 行 客户 端 YE 
ERSE, AT T NS : 


SMEMBERS parking_facilities_set 


集合 中 全 部 1912 条 许可 证 号 都 会 打印 出 来 。 可 以 运行 we -1 paking. facilities.csv 
确认 数字 是 否 正确 。CSYV 中 的 每 行 都 对 应 一 个 停车 设施 ， 所 以 两 个 数字 应 该 一 致 。 

每 个 停车 设施 的 属性 都 保存 在 一 个 哈 大 中， 由 形 如 parking facility:«license 
_number> 的 键 来 标识 。 所 以 ， 要 找 出 许可 证 号 1105006 关联 的 哈 希 的 所 有 键 ， 可 以 使 用 下 面 这 


m^. 








个 命令 


HKEYS parking facility:1105006 


啊 应 如 下 : 
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"facility type" 
"entity name" 
"camis trade name" 
"address bldg" 
"address street name" 
"address location" 
"address city" 
"address state" 

9. "address zip. code" 
10. "telephone number" 
11. "number of spaces" 


OO -] € Ul B w B2 I 
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许可 证 号 1105006 是 命令 SMEMBERS parking facilities set 返回 的 列表 中 的 第 一 个 





不 过 无 序 集 没 有 顺序 ， 所 以 重新 执 


表 按 一 定 的 顺序 显示 ， 应 该 用 有 序 集 代 蕉 无 序 集 ， 用 下 面 这 行 代码 换 挥 if r.sadd("parking_ 


A NY 


ITX 








个 命令 ， 同 一 个 许可 证 号 可 能 不 会 再 排 第 一 。 如 采 需 要 列 





facilities set", license number) XT LR] EJ 


if r.zadd("parking facilities set", license number): 

现在 ， 可 以 碍 询 哈 硕 中 的 特定 值 ， 比 如 说 设施 类 型 : 

HGET parking facility:1105006 facility type 

结果 是 "Parking Lot"o 可 以 用 HVALS 命令 打印 出 所 有 值 ， 如 下 : 


HVALS parking facility:1105006 


结果 是 : 


1. "Parking Lot" 





然 ， 如 果 能 显示 出 一 个 哈 硕 中 所 有 键 和 对 应 的 值 就 更 好 了 。 可 以 使 用 如 下 的 HGETALL Ay 


2. "CENTRAL PARKING SYSTEM OF NEW YORK, INC" 
Sa 3e 
4. "41-61" 
5. "KISSENA BOULEVARD" 
Bu. Ti 
7. "QUEENS" 
8. "NY" 
9. "11355" 
10. "2126295602" 
11. "808" 
当然 
令 实现 ; 
HGETALL parking facility:1105006 
响应 如 下 : 
1. "facility type" 
2. "Parking Lot" 
3. "entity name" 
4. "CENTRAL PARKING SYSTEM OF NEW YORK, INC" 
5. "camis trade name" 
Bu 
7. "address bldg" 
8. "41-61" 
9. "address street name" 
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10. "KISSENA BOULEVARD" 
11. "address location" 

ld. Ti 

13, "address city" 

14. "OUEENS" 

15. "address state" 

15, "NY" 

17. "address zip code" 

18. "11355" 

19. "telephone_number" 


20. "2126296602" 
21. "number_of_spaces" 
22. "808" 


有 时 ， 并 不 需要 所 有 键 / 值 对 ， 而 只 需要 打印 出 特定 一 组 字段 的 值 。 例 如 可 能 只 需要 打印 出 
address city 和 address z ip code ZEEE: 





HMGET parking_facility:1105006 address city address zip code 


啊 应 是 : 
1. "QUEENS" 
2. "11355" 


类 似 地 ， 也 可 以 用 命令 HMSET 设置 一 组 字段 的 值 。 要 获取 键 的 总 数 ， 可 以 用 HLEN 命令 : 

HLEN parking facility:1105006 

啊 应 是 11。 如 果 想 要 检查 address city 是 不 是 这 些 键 中 的 一 个 , 可 以 使 用 HEXISTS 命令 
检查 它 是 否 存 在 : 

HEXISTS parking facility:1105006 address_city 

啊 应 1 表示 字段 存在 ，0 表示 不 存在 。 

再 回 到 集合 parking facilities set E, 有 可 能 你 需要 的 只 是 成 员 总 数 , 而 不 是 列 出 所 
有 成 员 ， 此 时 可 以 使 用 SCARD 命令 : 

SCARD parking facilities set 

结果 是 1912。 要 检查 一 个 成 员 是 否 存在 于 无 序 集中 ， 可 以 使 用 命令 SISMEMBER。 例 如 要 检 
fr 1005006 是 否 是 无 序 集 的 成 员 ， 可 以 使 用 下 面 的 命令 : 

SISMEMBER parking facilities set 1105006 


整数 值 0 和 1 分 别 代表 一 个 成 员 不 属于 无 序 集 (false), Ja TIFE (true )。 














6.4 小结 


本 章 举 例 说 明了 一 些 更 高 级 的 查询 机 制 。MongoDB 查询 是 通过 电影 评分 数据 集 示 例 来 解释 
HJ, HBase 查询 是 用 历史 股市 数据 梓 例 来 阐释 的 , 而 Redis 查询 能 力 则 是 用 NY C 政府 样 例 数据 说 
明 的 O 

对 碍 询 功能 的 履 关 谈 不 上 详尽 ， 并 没有 餐 关 所 有 类 型 的 用 例 。 本 章 演 示 的 用 例 只 是 无 数 可 能 
方式 中 有 限 的 一 部 分 ,然而 通过 浏览 这 些 例子 ,应 该 能 帮助 你 熟悉 NoSQL 数据 查询 的 风格 和 机 制 。 
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本 章 内 容 

a 使 用 文档 数据 库 、 面 向 列 数据 库 和 键 / 值 存储 来 管理 数据 的 schema 
a 数据 演进 与 存储 维护 

a 数据 导 人 与 导出 


b AWERI, ASHER ET, HBIABISZdEQGUAR, ATSR, m 
日 不 那么 激进 。 为 外 ， 数 据 往 往 比 单个 程序 存活 得 更 久 。 而 且 就 算是 根据 特定 用 例 来 

设计 ， 数 据 常 第 也 会 以 从 未 设想 过 的 方式 被 使 用 。 

即便 如 此 ， 关 系数 据 库 通 常 不 太 关 注 数 据 的 演变 。 虽 然 它 确实 提供 了 修改 schema 和 数据 类 
型 的 方法 , 但 是 仍然 假定 在 大 多 数 情况 下 ， 元 数据 会 保持 静态 不 变 。 它 假定 对 大 多 数 类 型 的 数据 
来 说 ， 结 构 普 遍 都 是 统一 的 ， 它 认为 站 先 要 确保 数据 schema 的 正确 性 。 关 系 型 数据 库 关 注 如 何 
高 效 地 存储 结构 化 的 、 致 密 的 数据 集 ， 因 此 记录 的 正规 化 (normalization) 就 非常 重要 。 

虽然 本 章 讨 论 的 不 是 RDBMS 能 否 适 应 改变 ， 不 过 应 当 注 意 到 ， 修 改 数据 schema 和 数据 类 
型 、 合 并 两 个 不 同 版 本 schema 的 数据 ， 这 些 事情 在 RDBMS 中 通 和 帝都 比较 复杂 ， 往 往 还 要 用 到 
很 多 权宜 之 计 。 比 如 像 添 加 新 列 到 已 有 表 〈 即 已 经 存在 一 些 数据 )， 这 么 温和 的 改变 也 可 能 会 造 
成 严重 的 问题 ， 特 别 是 当 新 列 还 需要 保存 唯一 人 时 。 对 这 类 问题 , 应 对 之 道 是 有 的 ,但 它们 并 不 
优雅 ， 或 者 不 是 无 颖 的 解决 方案 。 与 之 相反 , 许多 NoSQL 数据 库 推 党 无 schema 数据 存储 ， 这 样 
变化 起 来 就 更 目 然 、 更 容易 。 

和 前 面 章节 一 样 ， 我 们 通过 三 类 流行 的 NoSQL 产品 来 探讨 数据 库 修改 与 演变 的 话题 ， 它 们 
































分 别 是 : 

a 文档 数据 库 

a 列 数据 库 

OQ 键 / 值 存 储 
7.1 修改 文档 数据 库 

文档 数据 库 形式 上 是 无 schema 的 ， 它 支持 在 集合 中 存储 自 包含 的 文档 作为 记录 或 是 条 目 。 
文档 数据 库 并 非 那么 坚持 正规 的 schema 或 形式 ， 所 以 它 明显 更 容易 接纳 变化 和 修改 。 事 实 上 ， 
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文档 数据 库 并 不 会 阻止 你 把 完全 不 同 的 文档 存储 到 同一 个 集合 里 , 虽然 这 样 的 集合 逻辑 上 可 能 不 
是 很 有 用 。 

CouchDB ( 现在 作为 Couchbase 的 一 部 分 ) 和 MongoDB 是 领先 的 开源 文档 数据 库 ， 在 存储 
不 同属 性 的 文档 到 同一 个 集合 里 这 一 点 上 ， 都 表现 得 极为 灵活 。 例 如 ， 你 可 以 很 容 多 地 把 下 面 两 
个 文档 存储 在 一 起 : 


( name => "John Doe", organization => "Great Co", email => "john.doeGexample.com" } 
{ name => "Wei Chin", company => "Work Well", phone => "123-456-7890" |] 


局 动 CouchDB， 然 后 把 这 两 个 文档 存储 在 名 为 contacts 的 数据 库 里 。 








一 个 MongoDB 服务 器 可 以 托管 多 个 数据 库 ， 每 个 数据 库 又 可 以 有 多 个 集 


合 。 相 对 地 ， 一 个 CouchDB 服务 器 可 以 托管 多 个 服务 器 ， 但 没有 集合 的 概念 。 





可 以 使 用 命令 行 工具 Futon 或 者 其 他 外 部 程序 来 和 CouchDB 交互 ， 并 存储 文档 。 





A CouchDB 提供 了 RESTAPI 米 执行 所 有 工作 ， 包括 创建 、 管 理 数 据 库 和 文 
档 ， 其 至 是 触发 复制 。 在 继续 下 面 内 容 之 前 ， 请 先 安 装 CouchDB。 实 践 出 真 
知 ,， 没有 什么 比 自己 党 试 各 种 例子 、 试 验 各 种 概念 更 好 的 了 。 如 果 安 装 设置 时 
需要 帮助 ， 请 参阅 附录 A。 附 录 A 中 包含 了 本 书 中 所 有 NoSQL 产品 的 安装 和 
设置 指南 。 


图 7-1 是 用 Futon 查看 contracts 数据 库 中 两 个 文档 列表 的 截图 。 列 表 中 只 显示 了 了 id ( CouchDB 
生成 的 UUID ) 和 文档 版 本 号 。 


Q | 127.0.0.1:5984/ utils/database.html?contacts 














图 7-1 
展开 Wei Chin 的 信息 会 显示 出 包括 所 有 字段 的 完整 文档 ， 如 图 7-2 所 示 。 





o Save Document o Add Field o Upload Attachment... e Delete Document... 





| Fields | Source 


Field Value 
id 
 qev 1-63726a5e55e33ed02a327caB8518df073 
company Work Well 
name 


phone 





— Previous Version | Next Version 一 
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图 7-2 底部 右 侧 的 导航 键 可 以 让 你 浏览 文档 的 不 同 版 本 ,这 在 很 多 数据 库 中 可 能 都 看 不 到 ， 
而 且 会 让 人 想起 版 本 控制 软件 或 文档 管理 系统 ， 不 过 它 是 内 置 在 CouchDB 里 的 一 个 非常 重要 
的 特性 。 在 CouchDB 里 ， 对 文档 的 更 新 在 底层 会 被 翻译 成 增加 一 个 文档 的 新 版 本 。 因 此 ， 如 
果 把 名 字 从 “Wei Chin” W “Wei Lee Chin”， 则 更 新 后 ， 当 前 版 本 文档 (JSON 格式 ) 会 像 
下 面 这 样 : 
( 
" id": "797£603028043f6D23264e627fa00121f", 
" rey": "2-949a21d63459638cb8392e6b3a27989d", 
"name": "Wei Lee Chin", 


"company": "Work Well", 
"phone": "123-456-7890" 








couchdb example.txt 


除了 name 字段 值 的 更 新 ， 还 能 看 到 _rev 属性 值 的 变化 。_rev 字段 存储 着 文档 版 本 号 。 原 
来 的 版 本 号 是 1-63726a5e55e33ed02a927ca8518df073 ， 更 新 以 后 的 版 本 号 是 2-949a21d 
63459638cbd392e653a27989d, CouchDB 中 的 版 本 号 格式 形 如 N-<hash value>， 其 中 N Xm 
文档 被 更 新 的 次 数 ， 喻 希 值 是 文档 传输 格式 的 MD5 哈 希 值 。 文 档 刚 创建 时 ，N 是 1。 








MD5 是 单 向 散 列 算法 ， 接 受 任意 长 度 的 数据 ， 生 成 128 位 指纹 或 信息 摘 


要 。 更 多 有 关 MD5 的 信息 请 访问 : www.ietf.org/rfc/rfc1321.txt。 





CouchDB 使 用 MVCC ( MultiVersion Concurrency Control， 多 版 本 并 发 控制 ) 以 方便 并 发 访 
问 数据 库 。 采 用 MVCC 使 得 CouchDB 能 够 避免 引入 锁 机 制 ( 以 确保 写 操作 准确 )。 每 个 文档 都 
有 目 己 的 版 本 ,文档 版 本 能 帮助 解决 冲突 。 在 更 新 一 个 文档 前 ， 首 先 要 确认 当前 版 本 (更 新 以 前 
的 版 本 ) 和 被 谈 取 时 的 版 本 一 样 。 如 果 版 本 不 匹配 ， 表 明 可 能 存在 冲突 ， 比 如 在 谈 取 和 随后 的 更 
新 之 间 ， 男 一 个 独立 线程 进行 了 更 新 。 在 更 新 文档 时 ,会 保存 整个 新 文档 ， 而 不 是 更 新 已 存在 的 
文档 。 这 个 过 程 附 融 的 好 处 是 性 能 会 有 所 提升 ， 因 为 回 连 续 内 存 中 追加 的 速度 比 原 地 更 新 更 快 。 
由 于 版 本 (或 者 说 版 本 号 ) 是 CouchDB 中 的 核心 概念 ， 因 此 你 会 看 到 多 个 版 本 。 

不 过 默认 情况 下 ,文档 的 各 个 版 本 并 不 永久 保存 。 版 本 控制 的 目的 是 为 了 避免 冲突 ， 同时 提 
供 并 发 能 力 。 压 顷 和 复制 会 删除 旧版 本 ,任何 时 刻 只 有 最 新 版 本 的 文档 才 确 定 存 在 。 这 意味 着 默 
认 和 情况 下 无 法 使 用 _rev 字段 查询 或 访问 旧版 本 的 文档 。 在 单 节 点 的 场景 中 ， 你 可 能 会 试图 通过 
关闭 压缩 来 保存 旧版 本 。 但 是 这 个 案 略 放 到 集群 上 就 会 立即 失效 ,因为 只 有 最 新 版 本 才 会 被 复制 。 

如 采 确 实 需要 保存 多 个 版 本 并 查询 旧版 本 的 文档 ， 束 要 通过 编程 来 实现 。CouchDB 创始 人 
对 这 个 问题 有 一 个 人 简单 高 效 的 解决 方案 ， 可 以 参阅 http://blog.couchone.com/post/632718824/simple- 
document-versioningwith-couchdb。 这 个 办 法 非常 直接 ， 它 建议 按 以 下 步骤 来 做 。 

a 在 访问 当前 版 本 的 文档 时 ， 提 取出 一 个 文档 的 字符 串 表 示 。 

口 更 新 前 ， 用 Base64 编码 字符 串 ， 将 其 二 进 制 形 式 作 为 文档 的 附件 保存 下 来 。 使 用 当前 版 
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本 号 (更 新 前 的 版 本 ) 作为 附件 名 。 

这 意味 着 ， 如 采 一 个 文档 是 这 样 访问 的 : 

http://127.0.0.1:5984/contacts/7971603b2d04316b23264e271a00121f 

则 包含 此 文档 作为 附件 的 版 本 2 可 以 这 样 访问 : 

http://127.0.0.1:5984/contacts/797f603b2d043f6b23264e27fa00121f/2-949a21d63459638cbd392e 
6b3a27989d 

大 多 数 情 况 下 , 这 种 管理 版 本 的 方式 既 简 单 又 好 用 。 更 复杂 的 版 本 管理 系统 可 以 根据 使 用 情 
况 来 保存 文档 的 版 本 。 

Futon 就 是 用 前 面 演示 过 的 技术 来 管理 文档 版 本 的 ,这 个 技术 在 CouchDB 的 jQuery JavaScript 
客户 问 类 库 里 得 到 了 实现 。jQuery K 9m 2S EE n] EXER: http:/svn.apache.org/viewvc? 
revision-948262&view-revision ; 

所 以 ,尽管 CouchDB 中 的 版 本 是 一 个 非常 有 趣 的 特性 ， 但 文档 存储 的 可 扩展 性 和 灵活 性 却 
是 更 普遍 的 特性 ， 这 也 能 在 其 他 弱 schema 的 NoSQL 数据 库 中 找到 。 





























7.1.4 弱 schema 的 灵活 性 


从 前 面 的 例子 里 明显 看 出 ，CouchDB 完全 能 够 在 同一 个 数据 库 中 存储 两 个 字段 不 同 的 文档 。 
这 样 做 有 很 多 好 人 处， 特别 是 在 以 下 情况 中 : 

Q 局 效 存储 稀 蚊 数据 集 ， 因 为 值 为 null 的 字段 不 占用 存储 。 

Q 随 看 文档 结构 发 生变 化 ， 增 加 额外 字段 的 工作 显得 微不足道 。 

在 前 面 例子 里 ，"John Doe" 有 一 个 email 地 址 ， 但 是 "Wei chin" 没 有 。 这 不 是 问题 ， 他 们 
可 以 共存 于 同一 个 数据 库 中 。 将 来 要 是 "wei chin" 也 有 了 email 地 址 ， 比 如 说 
wei.chinGexample.com, 那么 无 需 任 何 多 余 开 销 就 能 将 新 字段 添加 到 文档 里 。 同样 地 ， 字 上 段 
也 可 以 被 删除 ， 字 段 值 也 可 以 被 修改 。 

除了 可 以 添加 和 删除 字段 , 对 字段 的 数据 类 型 也 没有 什么 强制 规则 。 所 以 一 个 存储 字符 串 值 
的 字段 也 可 以 存储 整数， 甚至 还 可 以 存储 数组 类 型 。 这 意味 看 不 用 担心 强 类 型 。 另 一 方面 ， 这 意 
味 痢 应 用 程序 需要 确保 数据 是 验证 过 的 ， 而 且 值 的 语义 是 一 致 的 。 

到 目前 为 止 , 已 经 通过 CouchDB 初步 解释 了 弱 schema 的 灵活 性 。 为 了 展示 这 种 灵活 性 的 其 
他 方面 ， 下 面 使 用 MongoDB。 首 先 创 建 一 个 名 为 contacts 的 MongoDB 集合 ， 并 添加 两 个 文 
档 到 集合 中 。 启 动 MongoDB 服务 硕 ， 然 后 按 顺 序 执行 下 面 的 命令 : 



































use mydb 
* db.contacts.insert(( name:"John Doe", organization:"'Great Co", 
email:"john.doeGexample.com" }); 
db.contacts.insert(( name: "Wei Chin", company:"Work Well", phone:"123-456-7890" 
I3 


mongodb example.txt 


接 下 来 ， 确 认 集合 已 经 创建 好 ， 而 且 两 个 文档 也 在 里 面 。 可 以 像 下 面 这 样 仅 仅 列 出 文档 来 
确认 : 
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$ db.contacts.find()}; 
mongodb example.txt 
查询 结果 应 该 像 这 样 : 
( " 1d" ; ObjectId("Ad2bbad6febd3e2b32bed964"), "name" : "John Doe", 
"organization" : "Great Co", "email" : "john.doeGexample.com" ) 
{ " id" ; Obgectid("Ad2bbb43febd3e2b32bed965"), "name" : "Wei Chin", "company" : 
"Work Well", "phone" : "123-456-7890" | 


id 值 可 能 会 不 一 样 ， 因 为 这 些 是 MongoDB 在 我 的 系统 上 生成 的 ， 在 不 同 实 例 上 当然 会 有 
所 变化 。 现 在 ， 添 加 一 个 新 字段 email 到 "wei chin" 的 文档 中 : 


var doc = db.contacts.findOne(([ id:ObjectIid("Ad2bbb43febd3e2b32bed965") 1; 
$ doc.email = "wei.chinGexample.com"; 
db.contacts.save(ídoc); 


mongodb example.txt 


用 _ia 来 获取 文档 ， 然 后 赋值 给 email 字段 并 保存 文档 。 要 确认 已 经 添加 了 新 字段 ， 只 要 
从 contacts 集合 中 重新 获取 文档 即 可 : 


P db.contacts.find()}; 





mongodb example.txt 


结果 如 下 : 

( " id" : ObjectId("4d2bbad6febd3e2b32bed964"})}, "name" : "John Doe", 
"organization" : "Great Co", "email" : "john.doeGexample.com" } 

( *" id" : ObgjectIid("Ad2bbb43febd3e2b32bed965"), "name" : "Wei Chin", "company": 
"Work Well", "phone" : "123-456-7890", "email" : "wei.chin8example.com" } 


Ej CouchDB [i], MongoDB 不 会 维护 文档 版 本 ， 而 会 更 新 文档 。 

现在 ,比如 说 有 另 一 个 集合 contacts2 ,里面 包含 一 些 文档 ,我 们 需要 将 两 个 集合 contacts 
和 contacts2 合 二 为 一 。 你 会 怎么 做 ? 

很 可 惜 目前 还 没有 一 个 神奇 按钮 或 是 命令 可 以 实现 一 键 合并 多 个 集合 , 不 过 用 你 喜欢 的 语言 

一 个 小 脚本 来 合并 两 个 集合 并 不 是 非常 困难 。 在 设计 合并 脚本 时 ， 有 如 下 几 点 值得 考 愿 。 
a U 合 中 存在 _ida HERS, MES, EIEE 
^ ' 合 中 任意 两 个 文档 不 能 有 相同 的 _ia 值 。 覆 写意 味 着 第 二 个 集合 的 文档 会 
Wesce HUC. EINE ill XC IEEE ATRIIS 

a mm id 字段 进行 合并 。 

项 目 mongo-tools 中 包括 了 用 来 合并 两 个 MongoDB 集合 的 ruby 脚本 ， 可 以 在 这 里 访问 到 : 
https://github.com/tshanky/mongo-tools ; 
































7.1.2. MongoDB 的 数据 导入 与 导出 
数据 导出 和 导入 在 数据 库 备 份 、 恢 复 和 合并 中 是 很 重要 的 一 步 ， 而 且 很 常用 。 在 这 方面 ， 
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MongoDB 提供 了 一 些 有 用 的 工具 来 协助 用 户 。 

1. mongoimport 

如 果 需 要 导入 的 数据 就 放 在 一 个 文件 里 ， 而 且 是 JSON 格式 、CSV 格式 或 者 TSV 格式 等 文 
本 格式 ， 可 以 用 mongoimport 将 数据 导入 到 MongoDB 集合 中 。 它 有 一 些 选 项 值得 了 解 一 下 ， 不 
审 参 数 执行 命令 就 会 列 出 这 些 选项 。 不 市 参数 运行 bin/monogimport， 输 出 如 下 : 


connected to: 127.0.0.1 
no collection specified! 








options: 

--help produce help message 

-v [ --verbose ] be more verbose (include multiple times for more 
verbosity e.g. -vvvvv) 

-h [ --host ] arg mongo host to connect to ("left,right" for pairs) 

--port arg server port. Can also use --host hostname:port 

-d [ --db ] arg database to use 

-c [ --collection ] arg collection to use (some commands) 

-u [ --username ] arg username 

-p [ --password ] arg password 

--ipv6 enable IPv6 support (disabled by default) 

--dbpath arg directly access mongod database files in the given 
path, instead of connecting to a mongod server - 
needs to lock the data directory, so cannot be used 
if a mongod is currently accessing the same path 

--directoryperdb if dbpath specified, each db is in a separate 
directory 

-f [ --fields ] arg comma separated list of field names e.g. -f name,age 

--fieldFile arg file with fields names - 1 per line 

--ignoreBlanks if given, empty fields in csv and tsv will be ignored 

--type arg type of file to import. default: json (json,csv,tsv) 

--file arg file to import from; if not specified stdin is used 

--drop drop collection first 

--headerline CSV,TSV only - use first line as headers 

--upsert insert or update objects that already exist 

--upsertFields arg comma-separated fields for the query part of the 
upsert. You should make sure this is indexed 

--gtopOnError stop importing at first error rather than continuing 

--jsonArray load a json array, not one item per line. Currently 


limited to AME. 

这 个 导入 工具 很 有 用 ， 但 是 如 果 要 导入 比 CSV 或 TSV (或 JSON 格式 ) 稍微 复杂 一 点 的 数 
据 ， 它 就 达到 极限 了 。 还 记得 第 6 草 里 用 来 加 和 载 MovieLens 数据 成 MongoDB 集合 的 Ruby 脚本 
吗 ? mongoimport 可 没 法 完成 那个 任务 。 

2. mongoexport 

和 加 载 数据 正好 相反 的 是 导出 数据 。 如 果 JSON 或 CSV 格式 能 满足 你 的 需要 ， 束 可 以 使 用 
这 个 工具 把 数据 从 集合 里 导出 来 。 要 了 解 有 哪些 可 用 的 选项 ， 不 市 任何 参数 运行 mongoexport HII 
可 。 所 有 选项 如 下 : 


connected to: 127.0.0.1 
no collection specified! 
options: 
--help produce help message 
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-V --verbose ] 

-h --host ] arg 
--port arg 

-d --db ] arg 

-€ --collection ] arg 
-u --username ] arg 
-p --password ] arg 
--ipv6 

--dbpath arg 


--directoryperdb 


er 


-q 


--CSV 


[ --fields ] arg 
--fieldFile arg 

| --query ] arg 
--out ] arg 


-0 





--jsonArray 


3. mongodump 


mongoimport 和 mongoexport 分 别 从 集合 中 导入 和 导出 数据 ， 人 处 理 人 可 读 的 数据 格式 。 如 采 
要 做 热 备 ， 可 以 用 mongodump 以 二 进 制 格式 转 储 整 个 数据 库 。 以 -help 为 参数 执行 mongodump 
命令 ， 可 以 查看 mongodump 的 选项 ， 输 出 如 下 : 






options: 
--help 


-WV 


-h 


[ 


[ 


--verbose 


--host ] a 


--port arg 


-d 
E 
-u 
-P 


[ 
[ 
[ 


--db ] arg 
--collecti 
--usernarne 


不 带 参 数 执行 mongodump 会 转 储 相关 的 MongoDB 数据 库 ， 所 以 别 用 
mongoimport 和 mongoexport 的 方式 来 浏览 参数 。 


] 


rg 


on ] arg 
] arg 


[ --password ] arg 
--ipv6 
--dbpath arg 


--directoryperdb 


-0 
-q 


[ 
[ 


--out ] arg (-dump) 


query | 


arg 
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be more verbose (include multiple times for more 
verbosity e.g. -vvvvv) 

mongo host to connect to ("left,right" for pairs) 
server port. Can also use --host hostname:port 
database to use 

collection to use (some commands) 

username 

password 

enable IPv6 support (disabled by default) 

directly access mongod database files in the given 
path, instead of connecting to a mongod server - 
needs to lock the data directory, so cannot be used 
if a mongod is currently accessing the same path 
if dbpath specified, each db is in a separate 
directory 

comma separated list of field names e.g. -f name,age 
file with fields names - 1 per line 

query filter, as a JSON string 

export to csv instead of json 

output file; if not specified, stdout is used 
output to a json array rather than one object per 
line 





produce help message 

be more verbose (include multiple times for more 
verbosity e.g. -vvvvv) 

mongo host to connect to ("left,right" for pairs) 
Server port. Can also use --host hostname:port 
database to use 

collection to use (some commands) 

username 

password 

enable IPv6 support (disabled by default) 

directly access mongod database files in the given 
path, instead of connecting to a mongod server - 
needs to lock the data directory, so cannot be used 
if a mongod is currently accessing the same path 
if dbpath specified, each db is in a separate 
directory 

output directory 

json query 


了 解 完 文 档 数 据 库 的 灵活 性 和 维护 工具 ， 现 在 可 以 进行 下 一 个 主题 : 列 数 据 库 。 
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7.2 ”面向 列 数 据 库 中 数据 schema 的 演进 


HBase 不 是 完全 弱 schema 的 ， 它 支持 比较 宽松 的 schema， 主 要 表现 为 列 族 定义 。 列 族 相 对 
毅 态 ， 和 定义 列 的 逻辑 分 组 ， 而 列 定 义 则 更 加 动态 灵活 。 为 了 解释 清楚 ， 这 儿 我 要 重用 并 扩展 第 3 
章 中 首次 介绍 HBase 时 使 用 的 例子 , 它 与 博文 有 关 。 如 果 需 要 了 解 细节 ,可 以 回顾 第 3 章 里 关于 





HBase 的 一 方 。 那 个 集合 中 的 元 系 类 似 下 面 这 样 : 
{ 


"post" : { 
"title": "an interesting blog post", 
"author": "a blogger", 
"body": "interesting content", 


T 

"multimedia": í( 
"header": header.png, 
"body": body.mpeg, 

m 


或 
{ 
"Dost" p 4 
"title": "yet an interesting blog post", 
"author": "another blogger", 
"body": "interesting content", 


"multimedia": { 
"body-image": body_image.png, 
"body-video": body video.mpeg, 
s 





blogposts.txt 


用 bin/start-hbase.sh 启动 HBase， 并 用 pbin/hbase sheil 连 上 服务 器 。 然 后 按 顺 序 


运行 下 面 的 命令 来 创建 表 并 生成 数据 : 


create 'blogposts', 'post', 'multimedia' 

put 'blogposts', 'postli', 'post:title', 'an interesting blog post' 

put 'blogposts', 'postl', 'post:author', 'a blodger' 

put 'blogposts', 'postl', 'post:body', 'interesting content' 

put 'blogposts', 'posti', 'multimedia:header', 'header.png' 

put 'blogposts', 'postl', 'multimedia:body', 'body.mpeg' 

put 'blogposts', 'post2', 'post:title', 'yet an interesting blog post' 
put 'blogposts', 'post2', 'post:title', 'yet another interesting blog post! 
put 'blogposts', 'post2', 'post:author', 'another blogger' 

put 'blogposts', 'post2', 'post:body', 'interesting content' 

put 'blogposts', 'post2', 'multimedia:body-image', 'body image.png' 
put 'blogposts', 'post2', 'multimedia:body-video', 'body video.mpeg' 


图 灵 社 区 会 员 DanyLee HF 尊重 版 权 


blogposts.txt 


7.3 HBase 数据 导入 与 导出 125 


数据 库 准 备 好 以 后 ， 可 以 执行 get 查询 : 


get 'blogposts', 'postl' 


blogposts.txt 


输出 类 似 这 样 : 

COLUMN CELL 

multimedia:body timestamp-1294717543345, value-body.mpeg 
multimedia:header timestamp-1294717521136, value-header.png 
post:author timestamp-1294717483381, value-a blogger 

post:body timestamp-1294717502262, value-zinteresting content 
post:title timestamp-1294717467992, value-an interesting blog 
post 


5 row(s) in 0.0140 seconds 

现在 数据 集 已 经 准备 好 了 ， 我 将 重 述 一 些 HBase 的 基本 概念 ， 然 后 展示 HBase 是 如 何 随 着 
数据 schema 的 变化 而 改变 的 。 

H^c. Æ HBase 中 ， 数 据 更 新 是 窗 写 记录 的 新 版 本 ， 而 不 是 原 地 更 新 记录 。 在 CouchDB 中 
我 们 见 过 类 似 的 行为 。HBase 默认 保存 最 新 的 三 个 版 本 ,不 过 可 以 通过 配置 指定 存储 三 个 以 上 版 
本 。 版 本 数量 在 列 族 上 设置 ， 定义 列 族 时 可 以 指定 版 本 的 数量 。 在 HBase shell 里 可 以 创建 一 个 
名 为 'mytable' 的 表 ， 定义 名 为 'afamily ' 的 列 族 ， 指 定 你 存 15 个 版 本 : 

create 'mytable', { NAME -» 'afamily', VERSIONS => 15 } 

VERSIONS 属性 取 整 数值 ， 所 以 它 的 最 大 值 是 Integer.MAX VALUE. JE MU XCREIBBEE 
义 得 非常 大 ,但 要 用 这 个 数据 查询 和 获取 值 却 不 容易 ， 因 为 没有 内 建 的 基于 版 本 的 索引 。 同 样 ， 
版 本 还 帘 有 时 间 惟 ,但 是 在 这 个 时 间 序 列 上 查询 数据 集 也 不 是 可 以 轻易 或 高 效 实现 的 。 

在 这 里 我 们 使 用 命令 行 工 具 完成 了 配置 , 这 个 配置 也 可 以 通过 编程 实现 。 最 大 版 本 数 需 要 作 
为 参数 传 给 HColumnDescriptor PHAR PRU o 

在 HBase 中 ， 列 不 需要 提前 定义 好 ， 因 此 给 管理 schema 的 变化 市 来 了 一 定 的 灵活 性 。 男 一 
方面 ， 列 族 相 对 静态 。 一 个 列 族 的 列 不 能 重 命名 ， 或 者 重 分 配 到 其 他 列 族 。 实 现 这 样 的 修改 需要 
创建 新 列 ， 从 已 有 列 迁 移 数据 到 新 列 ， 然 后 可 能 删除 旧 列 。 

HBase 文 持 用 shell 或 编程 方式 创建 列 族 ， 过 去 Cassandra 在 这 方面 更 僵化 一 些 。 在 旧版 本 的 
Cassandra 里 ， 定 义 列 族 要 重启 数据 库 。 现 在 Cassandra 灵活 多 了 ， 人 允许 在 运行 时 修改 配置 。 


7.3 HBase 数据 导入 与 导出 


表 'blogposts' 中 的 数据 可 以 被 导出 到 本 地 文件 系统 或 者 HDFS 中 。 
要 导出 数据 到 本 地 文件 系统 ， 可 以 这 样 做 : 


bin/hbase org.apache.hadoop.hbase.mapreduce.Driver export blogposts 
path/to/local/filesystem 


要 导出 同一 份 数据 到 HDFS 中 ， 则 这 么 做 : 
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bin/hbase org.apache.hadoop.hbase.mapreduce.Driver export blogposts 
hdfs://namenode/path/to/hdfs 


除了 导出 , 也 可 以 导入 数据 到 HBase 表 中 。 可 以 从 本 地 文件 系统 或 者 HDFS 导 和 数据。 与 导 
出 类 似 ， 从 本 地 文件 系统 导入 数据 命令 如 下 : 


bin/hbase org.apache.hadoop.hbase.mapreduce.Driver import blogposts 
path/to/local/filesystem 


从 HDFS 导入 与 之 类 似 ， 可 以 像 下 面 这 样 导 入 : 


bin/hbase org.apache.hadoop.hbase.mapreduce.Driver import blogposts 
hdfs://namenode/path/to/hdfs 


7.4 ” 键 / 值 存储 中 的 数据 演变 


键 / 值 存储 文 持 的 数据 集 往往 有 限 ,要 么 为 字符 串 ,要 人 么 为 对 象 从 ,6 有些 键 / 值 存储 ( 比如 Redis ) 
文 持 一 些 非常 复杂 的 数据 结构 。 还 有 些 键 / 值 存储 ， 例 如 Memcached 和 Membase， 和 存储 时 间 敏 感 
的 数据 ， 并 根据 配置 清除 所 有 旧 数 据 。 

Redis 文 持 的 集合 类 型 有 哈 布 、 无 序 集 、 列 表 等 ， 但 几乎 没有 任何 元 数据 设施 。 对 Redis 来 
说 ， 所 有 东西 都 是 哈 硕 ， 或 者 哈 硕 集合 。 它 完全 不 知道 键 是 什么 ， 表 示 什 么 意思 。 

键 / 值 存储 并 不 保存 文档 、 数 据 结构 或 对 象 , 除了 键 / 值 对 以 外 ， 对 数据 的 schema 几乎 没有 概 
念 。 所 以 schema 的 变化 和 键 / 值 存储 没有 什么 相关 性 。 

和 重 命 名 字段 类 似 的 是 重 命名 键 。 如 果 键 存在 ， 则 可 以 像 下 面 这 样 重 命名 之 : 

RENAME old key name new key name 

Redis 通过 将 数据 刷 到 磁盘 上 来 完成 它 所 持 有 的 所 有 数据 的 持久 化 。 要 备份 Redis 数据 库 ， 
只 需 复制 Redis 的 DB 文件 ， 然 后 配置 另 一 个 实例 来 使 用 它 就 行 。 或 者 可 以 发 送 BGSAVE 命令 来 
异步 启动 并 保存 数据 库 持久 化 的 任务 。 




















7.5 小结 


NoSQL 数据 库 文 持 弦 schema 结构 ， 因 此 能 适应 灵活 的 持续 的 演进 。 尺 管 没 有 显 式 声明 ,但 
这 实际 上 是 NoSQL 的 一 个 关键 特性 ,没有 严格 的 schema 使 文档 数据 库 可 以 专注 于 存储 表达 现实 
世界 的 数据 ， 而 无 需 把 它们 生硬 地 赛 进 规范 化 关系 型 模型 里 。 

在 列 数据 库 中 ， 去 除 严 格 的 schema 让 维护 工作 和 黎 玻 数据 的 增加 都 变 得 非常 容 兄 。 在 键 / 但 
存储 中 ，schema 的 概念 则 非常 有 限 。 
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数据 索引 与 排序 


本 章 内 容 

a 创建 索引 以 提高 查询 性 能 

a 在 文档 数据 库 和 列 族 数 据 库 中 创建 和 维护 索引 
口 NoSQL 数据 排序 

O 有 效 的 设计 决策 : 创建 最 优 索 引 和 排序 模式 














一 一 面 我 们 学 习 了 NoSQL 数据 库 的 查询 ,这 一 革 将 学 习 如 何 确保 查询 快速 蜗 效 。 关系 型 数 

HIJ 据 库 通 党 利用 索引 来 优化 查询 的 性 能 ， 类 似 的 概念 同样 适用 于 NoSQL. 

索引 的 日 的 是 为 了 提 噩 数据 访问 性 能 。 理论 上 ,它们 和 书 的 索引 在 行为 上 类 似 。 如 末 需 要 查 
找 书 里 的 术语 或 词语 ， 有 两 个 选择 : 

口 一 页 一 页 翻 志 整 本 书 奋 找 术语 或 词语 。 

a 查看 书后 面 的 索引 ， 找 出 包含 术语 或 词语 的 页 码 ， 然 后 按 页 人 码 浏 览 这 些 页 。 

两 个 选项 相 比 ， 明 显 应 该 查 索 引 而 不 是 按 页 翻 。 索 引 让 工作 变 得 既 人 简单 又 方 省 时 间 。 

类 似 地 ， 在 访问 数据 库 记 录 时 ， 也 有 两 个 选择 : 

O 按 条 日 一 个 一 个 地 裔 历 整 个 集合 或 数据 集 。 

口 利用 索引 快速 获取 到 相关 数据 。 

很 明显 ， 这 一 次 索引 又 成 了 首选 项 。 里 然 书 的 索引 和 数据 库 的 夫 引 很 类 似 ， 但 是 把 这 种 相似 
性 延伸 太 远 又 会 造成 困惑 。 书 的 索引 用 在 文本 上 ,因此 索引 词 主要 集中 在 比较 重要 的 于 集 上 。 00— 
方面 ， 数 据 库 索 引 却 可 以 应 用 到 集合 的 所 有 数据 上 。 索 引 通 沼 建 在 条 上 日 的 标识 符 或 者 特定 属性 上 。 


8.1 ”数据库 索 引 的 基本 概念 


创建 索引 疫 有 万 能 公式 ,不 过 大 部 分 有 用 的 方法 都 依赖 于 少数 共通 的 想法 。 这 些 想法 则 建立 
ERARA BRA B+ 树 的 基础 上 。 本 万 我 们 要 详细 了 解 这 些 概念 ， 理 解 基 础 的 理论 。 

哈 希 函数 是 精确 定义 的 数学 函数 ， 可 以 把 巨大 的 , 往往 是 变 长 的 ,而且 复杂 的 数据 值 变 成 单 
个 整数 或 者 一 组 子 市 码 。 哈 希 函 数 的 输出 有 很 多 名 了 字 ， 包 括 哈 硕 码 、 哈 布什 、 喻 硕 和 、 校 验 和 。 
哈 希 人 码 通 第 用 作 关 联 数组 ( mnt Ie) 的 键 。 如 果 要 把 复杂 的 数据 库 属性 值 变 成 哈 希 人 码 ， 
以 便 创建 沦 引 ， 这 时 了 蛤 希 了 水 数 就 能 派 上 用 场 了 。 
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树 这 种 效 据 结构 将 一 组 值 分 布 到 像 例 一 样 的 结构 里 。 值 按 层 次 组 织 , 市 点 之 间 和 存在 链接 或 指 
针 。 二 又 树 是 最 多 只 有 两 个 子 节 点 的 树 : 一 个 在 左边 ， 态 一 个 在 右边 。 一 个 节点 可 以 是 父 节 点 ， 
这 样 它 最 多 能 有 两 个 于 节点; mene ESRB. DUREE BE ien] so PETI] 
EHE ex. Bd 8-1 可 带 助理 解 二 又 例 数据 结构 。 

















跟 市 点 





K| 8-1 


B PE- XUNBILLIEX AT ASSI BIT D XUI LUEIIPPT S BARREA F 
的 ， 进 而 文 持 高 效 碍 找 和 数据 访问 。B+ 树 是 B 树 的 特例 。 在 B+ 树 中 ， 所 有 记录 存在 叶子 中 ， 叶 
子 依 次 链接 起 来 。B+ 树 是 数据 库 索 引 中 最 弟 使 用 的 树 结构 。 

如 果 想 了 解 更 多 有 关 B 树 和 B+ 树 的 内 容 ， 可 以 阅读 下 列 在 线 内 容 : 

Q http://en.wikipedia.org/wiki/B-tree 








Q www.semaphorecorp.com/btp/algo.html 

Q http://en.wikipedia.org/wiki/B?6o2Btree 

另外 ， 可 以 更 加 系统 地 阅读 Cormen Leiserson, Rivest 和 Stein 合 著 的 书 Introduction to 
Algorithms, ISBN 0-262-03384-4, 

虽然 基础 模块 一 样 ， 但 是 在 不 同 的 NoSQL 产品 里 ， 创 建 和 使 用 索引 的 方式 各 有 不 同 。 本 章 
后 续 部 分 会 介绍 MongoDB, CouchDB 和 Apache Cassandra 的 索引 。 上 此外， 在 介绍 索引 的 同时 ， 
还 会 介绍 高 效 的 数据 排序 ， 因 为 二 者 高 度 相关 。 


8.2 MongoDB 的 索引 与 排序 


MongoDB 提供 了 非常 丰 曙 广泛 的 索引 选项 以 提高 查询 性 能 。 黑 认 情 况 下 ， 它 会 在 所 包含 的 
所 有 集合 的 _ia 属性 上 创建 一 个 索引 。 

解释 索引 的 最 好 方法 是 以 例 服 人 。 我 们 先 从 第 6 草 介 绍 的 电影 评分 集合 例 于 开始 。 如 采 你 的 
MongoDB 实例 里 没有 电影 评分 集合 ， 请 按 第 6 章 的 样 例 设置 和 加 载 集合 。 全 都 做 完 以 后 应 该 有 
三 个 集合 ， 即 movies 、ratings 和 users。 


H Y EARS IBS SCRI IS], 还 需要 一 些 工 具 来 测量 有 无 索引 时 的 查询 性 能 。 TE MongoDB 里， 
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使 用 内 置 工具 就 能 方便 完成 测量 ,这些 工 具 可 以 解释 查询 计划 ， 并 标记 出 执行 缀 慢 的 查询 。 

查询 计划 描述 为 了 执行 给 定 的 查询 请 求 , 数据 库 必须 要 做 的 事 悄 。 在 深入 了 解 查询 输出 以 及 
它 所 表达 的 内 容 前 ， 先 运行 计划 解释 工具 。 要 获取 ratings 集合 中 的 所 有 条 目 ， 可 以 像 下 面 这 
FEE: 


db.ratings.find(); 








movielens indexes.txt 
要 查看 计划 解释 ， 执 行 下 面 这 个 查询 : 


db.ratings.find().explainí(í); 


movielens indexes.txt 


计划 解释 的 输出 类 似 下 面 这 样 : 

( 
"cursor" : "BasicCursor', 
"nscanned" : 1000209, 
"nscannedObjects" : 1000209, 
"y" : 1000209, 
"millis" : 1549, 
"indexBounds" : { 


} 

} 

输出 说 总 共 消 耗 1549 毫秒 返回 1000209 ( 超过 10077 ) 个 文档 。 在 返回 的 1000209 个 文档 
中 ， 总 共 检 查 了 1 000 209 个 文档 ， 它 还 说 使 用 了 BasicCursor. 

很 明显 ,解释 函数 的 输出 也 是 一 个 文档 。 如 例子 展示 的 那样 ， 文 档 的 属性 包括 下 面 这 些 。 

O Cursor。 游 标 用 来 返回 查询 结果 集 。 游 标 有 两 种 类 型 基本 游标 和 B 树 游标 。 基 本 游标 

意味 者 表 扫 描 ，B 树 游标 表明 用 到 了 索引 |。 

O Nscanned. 被 扫描 的 实体 总 数 。 使 用 索引 时 ， 它 对 应 索引 实体 的 总 数 。 

口 nscannedObjects。 扫 描 的 文档 总 数 。 

口 N。 返 回 的 文档 总 数 。 

O Milis。 和 查询 的 耗 时 ， 单 位 为 毫秒 。 

O indexBounds。 表示 查询 匹配 的 索引 范围 的 最 小 键 和 最 大 键 。 这 个 字段 只 有 在 使 用 到 索引 

时 才 有 关 。 

下 面 的 例子 查询 ratings 的 子 集 。ratings 集合 包含 用 户 对 电影 的 评分 (分 值 从 1 到 5 )。 
为 了 过 滤 ratings 集合 , 将 其 限制 到 特定 一 部 电影 相关 的 子 集 。ratings 集合 只 包含 电影 的 唯 
一 标识 符 , 所 以 为 了 把 标识 从 和 电影 名 关联 起 来 , 需要 查找 movies 集合 中 的 值 。 我 选择 有 影片 Toy 
Story 最 初 的 版 本 ( 即 Toy Story 1) 作为 例 于 ， 你 可 以 另外 挑 一 部 。 

要 获取 与 Toy Story 有 关 的 文档 , 可 以 利用 正则 表达 式 。 前面 在 第 6 昔 里 了 解 过 这 个 查询 过 滤 
技术 。 如果 不 清楚 , LER , 赶紧 翻 看 那 一 章 , 回顾 这 些 概念 。 对 movies 集合 中 所 有 与 Toy Story 
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有 关 的 文档 可 以 查询 如 下 : 


Y db.movies.find(ftitle: /Toy Story/1i]); 
movielens indexes.txt 
输出 应 该 是 这 样 : 
(*" id" : 1, "title" : "Toy Story (1995)'", "genres" : [ "Animation", 
"Children's", "Comedy" ] } 
t Uo 1d" : 3114, "title" : "Toy Story 2 11999)", "genres" s [ "Animation", 
"Children's", "Comedy" ] } 


我 猜 在 汇编 这 些 评分 数据 时 ，7py Story 3 还 没有 发 布 。 这 就 解释 了 为 什么 在 列表 里 看 不 到 它 。 
下 面 用 "Toy story" 的 电影 标识 符 ( 正好 是 1) 找 出 所 有 用 户 的 相关 评分 。 做 之 前 ， 先 运行 计划 
解释 肾 数 ， 查 看 数据 库 如 何 执行 正则 表达 式 查 询 ， 以 便 从 movies 集合 中 找 出 Toy Story。 你 
可 以 运行 计划 解释 函数 如 下 : 


P db.movies.find(ftitle: /Toy Story/i]).explain(í); 





movielens indexes.txt 
输出 应 该 是 这 样 : 


"cursor" : "BasicCursor'", 
"nscanned" : 3883, 
"nscannedObjects" : 3883, 
"n" : 2, 

"millis" : 6, 
"indexBounds" : { 


} 
j 
跑 个 计数 ， 在 movies 集合 上 运行 db.movies.count () ;来 确认 文档 数量 ,会 发 现 它 和 查 
询 解 释 里 的 nscanned 及 nscannedObjects 值 相对 应 。 这 说 明正 则 表达 式 查 询 导 狼 了 表 扫 描 ， 
这 样 效 率 就 差 了 。 因 为 文档 只 有 3833 个 ， 所 以 查询 足够 快 ， 只 消耗 了 6 毫秒 。 很 快 你 就 会 知道 
如 何 利 用 索引 提高 这 个 查询 的 效率 , 但 现在 先 返回 ratings 集合 , 获取 与 7py Story 有 关 的 子 集 。 
要 列 出 所 有 Toy Story (更 准确 地 说 是 Toy Story(1995) ) 有 关 的 评分 ， 可 以 这 样 查询 : 


$ db.ratings.find((movie id: 1)); 





movielens indexes.txt 





要 查看 这 个 查询 的 查询 计划 ， 运 行 explain 如 下 : 
CS db.ratings.find((movie id: 1)).explain(); 


movielens indexes.txt 


输出 应 该 是 这 样 : 
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"cursor" : "BasicCursor'", 
"nscanned" : 1000209, 
'nscannecObjects" : 1000208, 
"n" : 2077, 

"millis" : 484, 
"indexBounds" : { 


} 
} 
到 这 一 步 就 非常 清楚 了 ,查询 显然 未 优化 ， 因为 nscanned 和 nscannedobjects 都 有 1000 
209 次 读 ， 包 括 了 集合 的 所 有 文档 。 这 样 我 们 就 正好 开始 介绍 索引 和 优化 。 


8.3 MongoDB 里 创建 和 使 用 索引 


在 MongoDB 里 ， 关 键 字 ensurerndex 完成 了 大 部 分 创建 索引 的 工作 。 上 一 忆 最 后 一 个 查 
ig movie _ id 过 滤 ratings feu ， 所 以 在 这 文 个 属 性 上 创建 索引 应 该 外 E 把 表 扫 摘 变 成 也 1258021 
遍历 。 下 面 ， 先 验证 理论 的 正确 性 。 

执行 下 面 的 命令 创建 索引 : 


db.ratings.ensurelIndex(í movie id:1 }}); 








movielens indexes.txt 


这 样 就 会 在 movie_iq 上 创建 一 个 索引 , 按 升 序 排列 索引 中 的 键 。 要 创建 降序 索引 ,可 使 用 
下 面 的 命令 : 


db.ratings.ensureIndex{({ movie id:-1 ); 





movielens indexes.txt 





然后 重新 运行 原来 的 查询 : 
db.ratings.find((movie id: 1)); 
movielens indexes.txt 
然后 再 确认 查询 计划 : 
db.ratings.find((movie id: 1)).explain(); 


movielens indexes.txt 


输出 应 该 是 这 样 : 
"Cursor" : "BtreeCursor movie id 1", 
"nscanned" : 2077, 
"nscannedObjects" : 2077, 
tnt + 4077; 
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"millis" : 2, 
"indexBounds" : { 
"movie id" : I 





乍 看 之 下 ， 很 明显 查找 的 条 目 〈 和 文档 ) 数量 从 1 000 209 (集合 中 的 文档 总 数 ) 减少 到 了 
2077 (匹配 过 滤 条 件 的 文档 数量 )。 多 么 巨大 的 性 能 提升 ! 从 算法 角度 讲 ， 文 档 搜 索 耗 时 已 经 由 
线性 可 扩展 缩减 为 常量 。 因 此 ， 运 行 查询 的 总 耗 时 从 484 毫秒 缩减 为 2 E, 减少 了 99%。 

从 查询 计划 的 游标 值 可 以 看 出 , 很 明显 用 到 了 索引 movie_iq_1。 可 以 试 着 创建 一 个 按 降 序 
排列 的 索引 ， 然 后 再 重新 执行 查询 和 查询 计划 。 不 过 在 执行 查询 前 ， 先 分 析 一 下 集合 ratings 
的 索引 列表 ， 找 出 如 何 强制 使 用 某 个 特定 的 索引 。 

要 获取 所 有 索引 的 列表 (准备 说 是 数组 ) 非常 容易 。 可 以 像 下 面 这 样 查询 : 


$ db.ratings.getIndexes(); 














movielens indexes.txt 


在 movie id 上 有 两 个 索引 , 分 别 为 升序 和 降序 ， MERA id 上 的 索引 , 列表 里 应 该 总 共 
4-1 ls getiIndexes 的 输出 如 下 : 
[ 


( 
"name" : " id "', 
"ne". e "mydb.ratings", 
"key" : { 
Hs qud A] 
j 
Fa 
( 
" id" : ObjectId("A4d02ef30e63c3e677005636£"), 
"ns" s "mudb.ratings', 
"key" : { 
"movie id" : -1 
p 
"name" : "movie id -1" 
), 
1 
" id" : Objectrid("4d032faee63c3e6770056370"), 
"ns" : "mydb.ratings", 
"key" : { 
"movie id" : 1 
m 
"name" : "movie id 1" 
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前 面 已 经 用 下 面 的 命令 在 movie id 上 创建 了 一 个 降序 索引 o 


d db.ratings.ensurelIndex(í movie id:-1 }); 


movielens indexes.txt 


如 果 需 要 , 通过 hint 方法 可 以 强制 查询 使 用 特定 的 索引 。 要 强制 使 用 movie_iq 上 的 降序 
索引 来 获取 “Toy Story(1995)”， 可 以 这 样 查询 : 


Y db.ratings.find(( movie id:1 }) .hint({ movie id:-1 )); 





movielens indexes.txt 


完成 执行 以 后 , 通过 查询 计划 查看 使 用 了 哪个 索引 , 表现 如 何 。 对 上 面 使 用 movie_ia 上 降 
序 有 索引 进行 的 查询 ,访问 查 询 计划 如 下 : 


$ db.ratings.find(( movie id:1 }).hint({ movie id:-1 }).explain(); 
movielens indexes.txt 


查询 计划 输出 如 下 : 
( 





"cursor" : "BtreeCursor movie id -1", 
"nscanned" : 2077, 
"nscannedObjects" : 2077, 
"n" x 2077, 
"millis" : 17, 
"indexBounds" : ( 
"movie id" : | 
[ 
i; 
1 


} 
} 


f BA T XI movie ia 上 标识 为 movie_iq_-1 的 降序 索引 的 使 用 。 它 还 显示 出 降序 索引 
和 升序 索引 一 样 ， 也 只 访问 了 2077 个 条 目 。 

不 过 输出 中 却 有 一 个 奇怪 之 处 。 尺 管 使 用 了 索引 ,而 且 只 选择 一 小 部 分 文档 进行 扫描 , 但 是 
返回 结 末 集 还 是 上 花 了 17 坚 秒 。 这 个 数字 比 表 扫描 所 用 的 484 EWIE, EH e TAE ARI 
所 消耗 的 2 坚 秒 。 在 这 个 例子 里 很 有 可 能 是 因为 , movie_iq 值 为 1, 并 且 位 于 升序 列表 的 头 部 ， 
而 且 前 一 个 查询 已 经 缓存 了 结 末 。 访 问 列表 头 部 的 文档 时 , 不 能 说 升序 索引 的 性 能 肯定 会 超过 降 
序 索 引 。 同 样 ， 访 问 列表 尾部 的 文档 时 ， 也 不 能 说 降 序 索 引 的 性 能 肯定 会 超过 升序 索引 。 大 部 分 
情况 下 ， 特 别 是 对 列表 中 部 的 条 目 ， 两 种 索引 的 性 能 同样 好 。 要 验证 这 个 性 能 断言 ， 可 以 分 别 使 
用 两 个 索引 查找 一 部 电影 的 评分 ， 电 影 的 movie ia 位 于 列表 另 一 端 。 

T ratings 的 movie ida 字段 (或 属性 ) 对 应 movies 集合 的 _iqd 字段 。 ia (以 及 
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movie id) 字段 取 值 为 整数 ， 所 以 按 降序 找 出 顶端 的 movie_idq 和 找 出 movies 集合 中 _ia Y 
段 的 最 大 值 一 样 。 找 出 movies 集合 中 _ia 最 大 值 的 一 种 办 法 是 像 下 面 这 样 按 降序 排列 . 


$ db.movies.find().sort(( _id:-1 )); 


movielens indexes.txt 


JavaScript 命令 行 每 次 只 返回 20 个 文档 , 所 以 很 容易 一 眼 找 出 最 大 值 是 3952。 如 果 用 编程 语 
言 API 或 任何 其 他 机 制 运行 这 个 查询 , 可 能 最 好 要 限制 结果 条 目的 数量 ,因为 只 需要 一 个 。 可 以 
像 下面 这 样 运行 查询 : 


db.movies.find().sort(( id:-1 Jj).limit(í(1); 


Y 


movielens indexes.txt 





A 为 什么 在 返回 降序 列表 的 头 几 个 条 目 时 ， 不 用 findOne 方法 而 用 limit 
方法 ? 因为 排序 不 支持 findone。 这 是 因为 findOne 可 以 只 返回 一 个 文档 ， 
而 对 一 个 文档 进行 排序 没有 任何 意义 。 另 一 方面 ,Limit 方法 只 限定 最 终 输 出 
7] S ISIRÓRS]—^4 E. 


movie id 值 3952 对 应 影片 The Contender(2000)。 要 获取 The Contender 的 评分 ， 无 论 
movie id 上 的 升序 还 是 降序 索引 都 可 以 。 因 为 这 里 的 目标 是 分 析 满 足 边界 条 件 的 查询 性 能 ， 
所 以 可 以 两 个 都 用 。 两 种 情况 下 都 执行 查询 计划 。movie_iaq 上 升序 索引 的 查询 和 查询 计划 命 
令 如 下 : 


db.ratings.find((í movie id:3952 jj.hint(( movie id:1 j); 
E db.ratings.find(([ movie 1d:3952 )).hint(íÍ movie id:l1 j).explain(); 




















movielens indexes.txt 


碍 询 计 划 的 输出 像 这 样 : 
( 


"cursor" : "BtreeCuürsor movie id 1", 
"nscanned" : 388, 
"nscannedObjects" : 388, 
"n" : 388, 
"millis" : 2, 
"indexBounds" : ( 
"movie id" : | 
[ 
3952, 
3952 
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movie id 上 降序 索引 的 查询 和 查询 计划 如 下 : 


db.ratings.find((í movie 1id:3952 j).hint(( movie id:-1 })}; 
E db.ratings.find((í movie id:3952 j).hint(( movie id:-1 J).explain(); 
{ 





"cursor" : "BtreeCursor movie id -1", 
"nscanned" : 388, 
"nscannedObjects" : 388, 
"n" : 388, 
"millis" : Q, 
"indexBounds" : { 
"movie id" : [ 
[ 
3952, 
3952 
] 
] 
) 


movielens indexes.txt 


MEAT TERRBUESAOKUR. Mm SE aS TAIRI, NUT HIE DUE RLBU 
不 过 , 要 牢记 查询 计划 的 输出 并 不 恒定 。 每 次 运行 部 可 以 产生 不 同 的 结 末 。 例如, 值 可 以 被 缓存 ， 
这 样 一 来 即便 重 跑 也 不 会 触及 底层 数据 结构 ,此 外 ,对 较 小 的 数据 集 ( 正如 movies 集合 的 例子 ), 
这 点 区 别 微不足道 ， 而 像 VO 沛 后 这 样 的 开销 对 啊 应 时 间 的 影响 则 要 大 得 多 。 一般 悄 况 下 ， 尤 其 
是 对 大 型 数据 集 来 说 ， 应 该 使 用 有 利于 查询 的 排序 索引 。 

有 时 ， 在 对 集合 大 量 修改 后 应 当 重 建 索 引 。 要 重建 ratings 集合 的 所 有 索引 ， 可 以 执行 下 
面 的 命令 : 


$ db.ratings.reIndex(); 


























movielens indexes.txt 


也 可 以 使 用 xuncommana 来 重新 索引 | : 


$ db.runCommand(í relndex:'ratings' }); 


movielens indexes.txt 
大 多 数 情 况 下 无 需 重建 索引 , 除非 集合 大 小 发 生 了 明显 的 变化 , 或 者 索引 占用 了 大 到 不 寻 稼 
HIRRET [R] « 
有 时 可 能 需要 删除 旧 索 引 ， 再 创建 新 索引 ， 而 不 是 重建 旧 索 引 。 可 以 用 dropIndex 命令 删 
ERR SI: 


“9 db.ratings.dropIndex(( movie id:-1 Jj); 


























movielens indexes.txt 
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这 个 命令 删除 了 movie ia 上 的 降 友 索引。 如 果 和 需要 也 可 以 删除 所 有 索引 。 要 删除 ( 除 _iq 
字段 索引 以 外 的 ) 所 有 索引 ， 可 以 这 么 做 : 


$ db.ratings.dropIndexes(); 





movielens indexes.txt 


8.341 HESE 


到 目前 为 止 , 我 们 还 只 是 在 单个 字段 (或 属性 ) 上 创建 索引 。 其 实 可 以 创建 包含 多 个 字段 的 
组 合 索引 。 例如, 可 以 在 movie_iqd 和 rating 字段 上 一 起 创建 索引 。 创 建 这 个 索引 的 命令 如 下 : 


32 db.ratings.ensureIndex({ movie id:1, rating:-1 }}); 


movielens indexes.txt 


这 会 在 movie_id 升序 MI rating 降序 ) 上 创建 一 个 组 合 索 引 。 除 此 之 外 ,在 movie_ id 
和 rating 上 四 个 可 能 的 组 合 索 引 中 还 有 三 个 可 以 创建 。 共 有 四 种 可 能 是 因为 两 个 键 分别 有 
升降 两 种 排序 。 排 序 会 影响 涉及 排序 和 范围 的 查询 ， 所 以 在 定义 集合 的 组 合 索 引 时 一 定 要 注 
意 排 序 。 

包含 movie id 和 rating 的 组 合 索引 可 以 用 来 查询 同时 匹配 这 些 键 或 者 只 是 第 一 个 键 ( 即 
movie id) 的 文档 。 如 采 只 基于 movie_ig 用 这 个 索引 过 小 文档 ， 则 其 行为 与 movie_iq 上 的 
单字 段 索 引 类 似 。 

组 合 索 引 包 含 的 键 不 限于 两 个 ,可 以 包括 任意 多 个 键 ,可 以 像 下 面 这 样 为 movie_iqd、rating 
fll user. id 创建 一 个 组 合 索 引 | : 


$ db.ratings.ensureIndex({ movie id:1, rating:-1, user id:1 )); 








movielens indexes.txt 


这 个 索引 可 以 用 于 查询 以 下 任何 情况 的 组 合 : 

L] movie id, rating 和 user_ id 

L movie id 和 rating 

L] movie id 

HERIEU erp Es dE T EESTI EBEKRE TRWA R21 BU, 我 们 先 来 介绍 
MEAE ATH CES ERR SIG ATAR, 使 用 一 个 有 关 人 的 集合 (people2) 样 例 。 一 个 
people2 集合 的 元 素 示例 如 下 : 











我 已 经 有 了 一 个 people 集合 ， 所 以 第 二 个 叫 people2。 你 可 以 随意 选 


择 自 己 吉 欢 的 名 宁 。 
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' id" : Obgectid("440688c6851e434340b173b7"), 
"name" : "joe", 
"age" : 27, 
"address" : 1 
"city" : "palo alto", 
"state" : "ca", 
"zip" : "94303", 
"country" : "us" 
} 
} 


可 以 在 address 字段 的 zip 字段 上 创建 一 个 索引 ， 像 这 样 : 


db.people2.ensureIndex(( "address.zip"'":1 }}; 


movielens indexes.txt 


还 可 以 为 name 和 address.zip 字段 创建 一 个 组 合 索 引 | : 


db.people2.ensureIndex(í name:1, "address.zip"':1 Jj); 


movielens indexes.txt 


也 可 以 选择 整个 子 文 档 作为 索引 键 ， 就 是 用 address 字段 创建 一 个 索引 : 


db.people2.ensureIndex([| address:1 )); 


movielens indexes.txt 


这 个 索引 包括 整个 文档 ， 不 只 是 文档 的 zip 字段 。 如 朱 传 人 整个 文档 来 碍 询 ， 束 能 用 上 这 
个 索引 。 

MongoDB 集合 的 字段 可 以 包含 数组 ， 而 不 是 文档 。 这 种 字段 也 可 以 被 索引 。 现 在 我 们 来 查 
看 为 一 个 orders 集合 的 例子 ， 以 演示 如 何 索 引 数 组 字段 。 一 个 orders 集合 的 元 系 示 例如 下 : 

( 








"id" : ObjectId("4cccff35d3c7ab3d1941b103"), 
"order date" : "Sat Oct 30 2010 22:30:12 GMT-0700 (PDT)"', 
"line items" : I 


{ 


"item" s 
"name" : "latte", 
"unit_price" : 4 
s 
"quantity" a 1 
Ja 
i 
"item" : { 
"name" : "cappuccino", 
"unit prios" vy 4,25 
2 
"quantity" » 1 
Js 
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"item" : { 
"name" : "regular", 
"unit price" s 2 
m 
"quantity" : 2 


Í 
可 以 这 样 索引 line items: 


db.orders.ensurelndex(í line items:1 )]); 


movielens indexes.txt 


如 果 索 引 字 段 包 含 数 组 ， 那 么 数组 的 每 个 元 素 都 会 被 添加 到 索引 中 。 
此 外 ， 还 可 以 按 line items 数组 的 item 属性 索引 | : 


db.orders.ensureIndex(( "line items.item":1 )); 








movielens indexes.txt 


再 进 一 个 层次 ,， 按 line items 数组 的 item 文档 的 name J& TES: 


db.orders.ensureIndex(í( "line items.item.name":1 )); 


movielens indexes.txt 





JUEESIL Uu] IRAE name 字段 查询 : 
db.orders.find(Í "line items.item.name":"latte" }); 


movielens indexes.txt 


运行 查询 计划 ， 得 知 这 个 查询 的 游标 值 是 BtreeCursor line items.item.name 1, X 


明 使 用 了 嵌 套 索引 。 
8.3.2 GI EEnE— 2 5 AMRA l 





现在 ， 相 信 你 已 经 完全 被 说 服 ，MongoDB 确实 提供 了 丰富 的 选项 来 宗 引 文档 ， 而 且 提 供 了 








高 效 的 查询 性 能 。 除 了 提高 查询 性 能 以 外 ， 索 引 还 可 以 用 作 施 加 约束 。 
可 以 通过 显 式 声明 来 创建 一 个 黎 玻 索引 : 


db.ratings.ensureIndex(í movie id:1 }, { sparse:true )); 

















movielens indexes.txt 





MRR ARERI FRIAR ASER WRA. 这 点 有 时 可 能 是 需要 的 , 但 是 要 注 





意 ， 称 路 索引 可 能 没有 引用 集合 中 的 所 有 文档 。 
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MongoDB 还 支持 创建 唯一 索引 。 可 以 在 movies 集合 的 title 字段 上 创建 一 个 唯一 索引 : 
db.movies.ensureIndex(( title:1 }, { unique:true )); 


movielens indexes.txt 





A movies 中 任意 两 条 目的 标题 都 不 相同 , 如 果 有 标题 相同 的 情况 出 现 , 唯一 索引 就 不 会 
创建 ， 除 非 显 式 声 明 除 第 一 个 条 目 以 外 ， 所 有 重复 都 可 以 丢弃 。 这 样 的 显 式 声明 如 下 : 


db.movies.ensureIndex(( title:1 }, { unique:true, dropDups : true }}); 








movielens indexes.txt 








如 朱 集 合 中 一 些 文档 的 索引 字段 没有 值 ， 就 会 在 这 些 位 置 上 搬入 null fo PLE SIR, 
这 些 文 档 不 会 被 跳 过 。 同 样 ， 如 果 有 两 个 文档 案 引 字段 痢 没 有 值 ， 只 有 第 一 个 会 保存 ， 剩 下 的 都 
ACRI 


8.9.8 ”基于 天 键 子 的 搜索 和 多 重 键 


到 目前 为 止 ， 已 经 介绍 了 很 多 有 关 MongoDB 索引 的 内 容 ， 禾 盖 到 了 所 有 基础 概念 和 大 部 分 
细 广 。 在 转 到 下 一 个 文档 数据 库 CouchDB 以 前 ， 再 展示 最 后 一 个 例子 。 这 个 例子 与 基于 正则 表 
达 式 的 文本 搜索 有 关 。 本 章 前 面部 分 里 ， 搜 索 电 影 Toy Story 对 应 的 电影 标识 符 使 用 了 下 面 这 个 
查询 : 

db.movies.find({title: /Toy Story/il); 

当时 也 运行 了 查询 计划 ,结果 显示 扫描 所 有 3883 个 文档 共 耗 时 6 毫秒。 集合 movies 很 小 ， 
此 表 扫 描 的 代价 并 不 是 很 大 。 不 过 这 个 查询 要 是 放 在 大 型 集合 上 运行 ， 可 能 就 会 慢 很 多 。 

要 提高 查询 性 能 ， 可 以 像 下 面 这 样 创建 一 个 索引 : 

db.movies.ensurelndex(í title:1 }}; 

不 过 有 些 情况 下 , 创建 一 个 传统 索引 可 能 不 够 ,特别 是 当 你 不 希望 依赖 于 正则 表达 式 , 但 又 
需要 全 文 检索 时 。 前 面 我 们 见 过 对 包含 数组 的 字段 进行 索引 。 在 这 种 情况 下 ，MongoDB 会 创建 
多 重 键 : 为 数组 中 的 每 个 唯一 值 创 建 一 个 键 。 例 如 可 以 保存 一 个 博文 集合 ， 名 为 blogposts, 
其 中 每 个 元 系 形 似 如 下 : 

i 





























" id" : ObjectId("A4d06bf4c851e434340b173c3"), 
"title" : "NoSQL Sessions at Silicon Valley Cloud Computing Meetup in January 
2011", 
"creation date" : "2010-12-06", 
"tags" : I 
"amazon dynamo", 
"big data", 
"cassandra", 
"cloud", 
"couchdb", 
"google bigtable", 
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"hbase", 
"memcached", 
"mongodb", 
"nosql", 
"redis", 
"web scale" 
] 
} 


现在 ， 可 以 很 容易 地 在 tags 字段 上 创建 一 个 多 重 键 索引 ， 像 这 样 : 

db.blogposts.ensurelndex(( tags:1l )); 

它 看 起 来 像 其 他 索引 一 样 ， 但 是 可 以 按 tags 的 任何 值 来 搜索 : 

db.blogposts.find((í tags:"nosql" )); 

这 个 特性 可 以 用 来 构建 基于 关键 词 的 完整 检索 。 和 tags 一 样 ， 需 要 把 关键 词 保存 到 数组 中 
作为 字段 值 。MongoDB 不 能 目 动 实现 关键 字 提 取 ， 你 需要 目 己 构 建 这 部 分 系统 。 

维护 大 数组 ,查询 大 量 文档 而 且 每 个 文档 邦 包 含 大 数组 ,这 些 都 会 拖 崇 数据 库 的 性 能 。 要 发 
现 和 提前 修正 一 些 慢 查 询 ， 可 以 利用 MongoDB 的 数据 库 分 析 答 。 实 际 上 ， 分 析 融 可 以 记录 所 有 
操作 。 

分 析 硕 有 如 下 三 个 级 别 。 

Q0: 4 raso]. 

a1: 只 记录 慢 操 作 (大 于 100 £P )。 

口 2: 记录 所 有 操作 。 

记录 所 有 操作 是 设置 分 析 带 级 别 为 2: 

db.setProfilingLevel(í2); 

A Pra EJ Ha LA MongoDB 集合 形式 提供 ， 可 以 用 下 面 的 查询 来 查看 日 志 : 

db.system.profile.find(); 

一 路 看 到 这 里 ， 理 论 上 你 已 经 了 解 了 几乎 所 有 与 MongoDB 索引 及 排序 有 关 的 内 容 。 以 后 访 
问 集合 数据 时 ， 可 以 使 用 这 些 工 具 来 调 优 查询 到 最 佳 性 能 。 





























8.4 CouchDB 的 索引 与 排序 


前 面 我 们 见 过 CouchDB 的 REST 风格 查询 机 制 。 现 在 再 深入 了 解 一 下 ， 为 了 提高 查询 效率 
数据 是 如 何 索 引 的 。 和 MongoDB 不 同 ，CouchDB 的 驼 引 功能 是 日 动 的 ， 在 数据 被 修改 以 后 ， 第 
一 次 读 取 时 触发 。 要 更 好 地 理解 这 点 ， 先 回顾 一 下 CouchDB 的 数据 访问 机 制 。CouchDB 3ifü 
MapReduce 风格 的 数据 操作 。 

map 芳 数 根据 集合 中 的 数据 生成 键 / 值 对 ， 最 终生 成 视图 结果 。 第 一 次 访问 视图 时 ， 会 基于 
数据 创建 一 个 B 树 索 引 。 之 后 的 访问 就 从 B 树 返 回 数据 ， 不 再 直接 碰 底 层 数据 ， 即 第 一 次 查询 
以 后 的 其 他 查询 部会 利用 B IRI. 
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CouchDB 里 的 B 树 索引 


B 树 索 引 能 很 好 地 文 持 大 数据 量 。 即 便 数 据 增 长 量 很 大 ，B 树 高 度 仍 然 能 保持 个 位 数 并 支持 
快速 数据 访问 。 在 CouchDB Œ, B 树 的 实现 为 多 版 本 并 发 控制 ( MVCC ) 和 只 追加 C append-only ) 
设计 做 了 专门 的 调整 。 

多 版 本 并 发 控制 使 得 多 个 读 写 操作 可 以 同时 发 生 , 无 需 排他 锁 。 和 它 相 似 的 最 简单 的 就 是 像 
GitHub 这 样 的 分 布 式 厂 本 控制 系统 。 所 有 的 写 操作 序列 化 , 读 不 受 写 影 响 。 CouchDB 有 一 个 _rev 
属性 ， 用 来 保存 最 近 的 修订 值 。 像 乐观 锁 一 样 ， 写 和 读 基 于 _rev 值 进 行 协调 。 

因此 客户 端 每 次 读 取 数 据 时 的 版 本 都 是 当时 的 最 新 版 本 。 视图 结果 中 的 索引 会 随 着 文档 的 修 
改 和 删除 进行 更 新 。 























couchdb-lucene 项 目 〈https:/github.com/rnewson/couchdb-lucene ) 使 用 


Lucene 开源 搜索 引擎 和 CouchDB 来 提供 全 文 搜 索 能 





8.5 Apache Cassandra 的 索引 与 排序 


像 HBase 和 Hypertable 这 样 的 列 族 数据 库 , 默认 基于 行 键 进 行 排 序 和 索引 。 在 这 些 数 据 库 里 ， 
对 列 值 的 索引 ( 又 称 次 级 索引 ) 通常 不 提供 现成 的 。HBase 对 次 级 沦 引 有 一 点 点 支持 。Hypertable 
计划 在 1.0 版 时 文 持 次 级 索引 ， 那 也 要 等 到 今年 晚 些 时 候 了 。 

Apahce Cassandra 是 面 问 列 数据 库 和 纯 键 / 值 存 储 的 一 个 混合 体 。 它 集成 了 Google Bigtable 与 
Amazon Dynamo 的 想法 。 与 面向 列 数据 库 类 似 ，Cassandra 默认 文 持 基于 行 键 的 排序 和 索引 。 此 
外 Cassandra 还 支持 次 级 索引 |。 

用 一 个 简单 例子 来 解释 一 下 _ Cassandra 对 次 级 索引 的 文 持 。 你 可 能 还 记得 第 2 章 那 个 
Cassandra 数据 库 ， 它 包含 CarDatastore 键 空 间 和 Cars 列 族 。 我 们 就 用 这 个 例子 来 解释 。 

先 用 bin 目录 下 的 cassandra 程序 启动 Cassandara IRS Ar, aH CLIE Cassandra, 
如 下 : 


PS C:\applications\apache-cassandra-0.7.4> .\bin\cassandra-cli -host localhost 
Starting Cassandra Client 

Connected to: "Test Cluster" on localhost/9160 

Welcome to cassandra CLI. 














Type 'help;' or '?' for help. Type "guit; - of 'exit;' to quit. 
如 有 果 试 过 第 2 草 的 例子 , 那 CarDataStore 应 该 已 经 在 本 地 数据 库 中 了 。 如 有 果 没 有 ， 请 阅读 第 
2 章 ， 并 按 要 求 设 立 好 键 空间 和 列 族 。 设 置 完 成 以 后 ， 使 carDatastore 成 为 当前 键 空间 : 


[default@unknown] use CarDataStore; 
Authenticated to keyspace: CarDataStore 


用 下 面 的 命令 确认 先前 添加 到 本 地 Cassandra 的 数据 还 在 : 
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[defaultGCarDataStore] get Cars['Prius']; 

=> (column-zmake, value-746f796f7461, timestamp-1301824068109000) 

=> (columnszmodel, valuez70726975732033, timestamp-1301824129807000; 
Returned 2 results. 


列 族 Cars 中 包含 两 列 : make 和 models 为 了 提高 按 值 查询 make 列 的 效率 ， 可 以 在 那 列 








上 创建 一 个 次 级 索引 。 由 于 列 已 存在 ,需要 修改 定义 来 添加 索引 。 更 新 列 族 和 列 定义 如 下 : 


[defaultQCarDataStore] update column family Cars with comparator=UTF8Type 
: and column metadata-[ícolumn name: make, validation class: UTF8Type, 
pon _type: KEYS}, 
(column name: model, validation class: UTF8Type}ł}]; 
9£03d6cb- 7923-11e0-aa26-e700f669bcfc 
Waiting for schema agreement... 
schemas agree across the cluster 


cassandra secondary index.txt 


update fi 命令 在 make 列 上 创建 了 一 一 个 索引 ， 索引 类 型 是 KEYS, Cassandra 定义 的 KEYS A 





索引 近似 一 个 人 简单 的 哈 希 键 / 值 对 。 


现在 ， 查 询 所 有 make 值 为 toyota 的 数据 。 类 SOL 语法 如 下 : 


[defaultGCarDataStore] get Cars where make = 'toyota'; 


RowKey: Prius 
-» (column-make, value-toyota, timestamp-1301824068109000) 
=> (column-model, value-prius 3, timestamp-1301824129807000; 


RowKey: Corolla 
=> (columnzmake, value-toyota, timestamp-1301824154174000j 
=> (column-zmodel, value-le, timestamp-1301824173253000) 


2 Rows Returned. 
cassandra secondary index.txt 


再 来 试 一 个 ， 这 次 用 model ENX prius 3 作为 条 件 过 滤 Cars 数据 : 


[default@CarDataStore] get Cars where model = 'prius 3'; 
No indexed columns present in index clause with operator EQ 


cassandra secondary index.txt 


fÉ make 过 滤 没 问题 ， 但 是 按 model 过 滤 失 败 了 。 这 是 因为 make 上 有 索引， 而 model 上 





没有 。 我 们 再 试 一 个 结合 了 make 和 model 的 查询 : 


[defaultGCarDataStore] get Cars where model = 'prius 3' and make = 'toyota'; 


RowKey: Prius 
=> (columnzmake, value-toyota, timestamp-1301824068109000) 
=> (columnzmodel, value-zprius 3, timestamp-z1301824129807000) 


1 Row Returned. 


cassandra secondary index.txt 
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索引 又 生效 了 ， 因 为 至 少 一 个 过 滤 条 件 包 括 了 被 索引 的 值 。 

这 个 例子 不 包括 值 为 数 的 列 ， 所 以 没 法 展示 大 于 、 小 于 等 过 滤 条 件 。 如 果真 想 要 利用 这 类 基 
于 不 等 式 的 查询 ， 那 就 不 大 走 运 了 了 。 因 为 目前 KEYS RIMARRA REJ cH. mgro 
Cassandra 引 人 了 B 树 ,或 类 似 类 型 的 索引 , 就 有 可 能 文 持 通过 索引 进行 范围 查询 。 人 简陋 的 KEYS 
索引 不 足以 文 持 范围 查询 。 











8.6 小结 


本 章 我 们 深入 探讨 了 对 MongoDB 文档 及 其 字段 进行 索引 的 细 方 ， 并 且 了解 了 CouchDB 里 
的 目 动 视图 索引 。 一 个 突出 的 主题 是 这 两 个 数据 库 都 文 持 索引 , 而 且 这 些 索 引 和 关系 型 数据 库 的 
索引 也 算 不 上 大 相 径 星 。 

我 们 还 了 解 了 一 些 特殊 的 功能 ， 例 如 MongoDB 中 数组 的 多 重 键 索 引 ， 还 有 CouchDB KE 
次 读 取 以 来 修改 的 所 有 文档 的 目 动 案 引 。 

除了 文档 数据 库 的 索引 ， 我 们 还 了 解 了 流行 的 列 族 数 据 库 Apache Cassandra 的 索引 能 

















图 灵 社 区 会 员 DanyLee HF 尊重 版 权 





D 
事务 和 数据 完整 性 的 管理 


本 章 内 容 

口 理解 ACID 事务 的 要 领 

口 了解 事 务 在 分 布 式 系统 中 的 应 用 
口 理解 Brewer 的 CAP 定理 

口 了 解 NoSQL 产品 的 事务 支持 








EB 理解 NoSQL 世界 里 的 事务 和 数据 完整 性 , 最 好 的 方式 是 首先 在 熟悉 的 RDBMS 环境 里 

T 重 温 这 些 概念 。 一 旦 建立 起 基本 的 事务 概念 、 术 语 ， 再 演示 一 些 例 子 ， 就 更 容易 理解 ， 
在 大 规模 分 布 式 环境 里 事务 受到 哪些 挑战 ， 同 时 这 些 地 方 也 正 是 NoSQL 大 放 异 彩 之 处 。 

不 是 所 有 NoSQL 产品 在 事务 和 数据 完整 性 上 都 共享 同样 的 观点 。 所 以 在 解释 完 对 大 规模 分 
布 式 系统 的 事务 完整 性 广泛 的 、 普 遍 的 期 望 后 , 最 好 还 能 展示 一 下 特定 产品 的 实现 方式 , 这 正 是 
本 章 表 达 主 题 的 方式 。 

所 以 让 我 们 现在 就 开始 吧 ， 先 从 ACID 谈 起 。 























9.1 RDBMS 和 ACID 


ACID, 分 别 代表 原子 性 ( Atomicity )、 一 致 性 (Consistency ) Bát (Isolation ) 和 持久 性 

( Durability )， 它 们 已 是 数据 库 系 统 事 务 完整 性 最 高 级 别 的 鞠 金 标准 。 正 如 缩写 所 暗示 的 ，ACID 
包含 下 面 这 些 内 容 : 

口 原子 性 。 一 个 事务 操作 要 么 完全 成 功 ,要么 完全 失败 。 这 两 个 状态 之 间 的 任何 不 一 致 都 

不 可 接受 。 能 说 明 此 属性 的 一 个 典型 例子 是 从 账户 A 转账 到 账户 B。 如 采 需 要 转 100 

美元 ， 须 从 A 帐号 转 出 100 美元 ， 再 向 B 账户 转 入 100 美元 。 逻 辑 上 转账 操作 包括 两 

个 步骤 : 从 A TERIS] B 转 人。 原子 性 意味 着 ， 如 采 出 于 某 种 原因 从 A 转 出 成 功 后 操 

ERI, 那么 整个 操作 必须 回 深 ， 操作 不 会 集 留 在 不 一 致 的 状态 中 ( 钱 已 从 A 转 出 , 但 
AU A B) 

O 一 致 性 。 一 致 性 意味 着 如 果 违 反 了 预定 义 的 约束 或 规则 ， 数 据 就 不 会 被 持久 化 。 如 果 某 

个 字段 说 它 只 接受 整数 仁 ， 那 么 它 就 不 会 接受 浮 点 但， 除非 四 售 五 人 到 最 近 整 效 。 一 致 

性 和 原子 性 容易 混 消 。RDBMS 中 一 致 性 通常 与 唯一 约束 、 数 据 类 型 验证 和 引用 完整 性 相 
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天 。 在 较 大 的 应 用 场景 中 ， 一 致 性 可 能 还 会 包含 更 复杂 的 数据 规则 ， 但 是 在 这 样 的 情况 
下 ， 维 护 一 致 性 的 任务 主要 还 是 留 给 了 应 用 程序 。 

口 隔离 性 。 隔 离 性 与 数据 的 并 发 访问 有 关 。 如 果 两 个 独立 的 进程 或 线程 操作 同一 个 数据 集 ， 
它们 有 可 能 会 影 啊 到 对 方 。 根 据 不 同 的 需求 ， 两 个 进程 或 线程 可 以 被 隔离 开 来 。 举 个 例 
T, RRADHE XA Y ETE VIE, HIMEN vo. XER V0 并 且 想 将 其 修 
改 为 V1, 但 是 就 在 它 完 成 更 新 前 Y 也 读 取 了 V0 并 更 新 为 V2。 MEM XAYA V1 时 发 
现 初始 值 已 经 更 新 了 了 。 如 于 不 控制 ,X 会 履 与 了 Y 刚 写 入 的 新 值 ， 这 可 能 不 是 我 们 想 要 的 。 
图 9-1 形象 地 描述 了 这 个 例子 。 隔离 性 确保 能 避免 这 种 矛盾 。 不 同 的 隔离 级 别 和 宁 上 略 将 在 
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OQ 持久 性 。 持 久 性 意味 着 一 旦 事务 操作 被 确认 了 ， 它 就 一 定 会 得 到 保证 。 使 持久 性 遭受 质 
疑 的 是 下 列 情况 : 客户 端 程序 收 到 了 事务 操作 成 功 的 确认 ， 但 是 系统 故障 妨碍 了 数据 被 
持久 化 到 存储 中 。RDBMS 通常 维护 一 个 事务 日 志 。 事务 只 有 在 写 入 事务 日 志 后 才 会 被 确 
认 。 如 果 在 确认 完成 后 、 数 据 持 久 化 前 发 生 了 系统 故障 ， 就 会 利用 事务 日 志 同 步 持久 化 
存储 ， 将 其 带 回 到 一 致 状态 中 。 
Æ RDBMS "F, ACID 保证 得 到 了 广泛 的 认可 。 很 多 时 候 ， 使 用 RDBMS 的 应 用 程序 框架 和 
编程 语言 试图 把 ACID 承诺 扩展 到 整个 应 用 中 。 如 果 整 个 栈 ( 即 数据 库 和 应 用 ) 驻 留 在 单 台 服务 
器 或 单个 节点 上 ， 那 当然 没 问 题 ， 但 是 一 旦 分 布 到 多 个 节点 上 ， 它 就 开始 捉襟见肘 了 。 
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隔离 级 别 和 隔离 策略 


严格 的 隔离 级 别 会 直接 影响 并 发 性 ， 因 此 ， 为 了 允许 并 发 处 理 就 要 放宽 对 隔离 性 的 要 求 。 
ISO/ANSI SQL 标准 定义 了 四 个 隔离 级 别 ， 这 四 个 级 别 分 别提 供 渐 进 增强 的 隔离 ， 它 们 是 : 

口 未 授权 该 取 

OQ 授权 读 取 

口 nup dH 

a 可 序列 化 

除 此 之 外 , 无 隔离 级 别 或 者 说 完全 混乱 可 以 看 作 人 第 五 级 。 隔 离 级 别 可 以 用 例子 解释 清楚 ， 所 
以 在 这 里 我 会 举 个 例子 。 假 设 存 在 一 个 简单 的 数据 集合 〈 或 者 RDBMS 世界 里 的 表 )， 如 表 9-1 
所 示 。 





表 9-1 用 于 理解 隔离 级 别 的 样 例 数据 


hs R 姓 名 职业 所 在 地 【城市 ) 
i| James Joyce Author New York 
2 Hari Krishna Developer San Francisco 
3 Eric Chen Entrepreneur Boston 





现在 ， 假 设 有 两 个 独立 的 事务 : 事务 1 和 事务 2， 并 发 操作 这 个 数据 集 ， 顺 序 如 下 。 

(1) 事务 1 读 取 集合 中 的 所 有 三 条 数据 。 

(2) 事务 2 ER ID 为 2 的 记录 ， 更 新 其 Location(City) 属 性 “San Francisco” 为 “San Jose", 不 过 
它 还 没有 提交 修改 。 

(3) 事务 1 重读 集合 中 所 有 三 条 记录 。 

(4) 事务 2 回 滚 步骤 2 中 的 所 有 更 新 。 

随 着 隔离 级 别 的 不 同 ， 结果 会 有 所 不 同 。 如 采 隔 离 级 别 是 未 授权 读 取 ， 那么 在 第 3 步 里 , 事 
务 1 会 看 见 被 事务 2 更 新 但 未 提交 的 修改 (第 2 步 ), 到 了 第 4 步 ， 这些 未 提交 的 修改 会 被 回 深 ， 
这 样 的 读 被 称 为 脏 读 。 如 果 隔 离 级 别 更 严格 一 些 , 设置 为 下 一 个 级 别 : 授权 读 取 ， 那么 第 3 步 里 
事务 1 重读 数据 时 就 不 会 看 到 未 提交 的 修改 。 

现在 交换 步 妈 3 和 4， 而 且 假 设 事务 2 提交 了 更 新 ， 那 么 新 的 步骤 序列 如 下 。 

(1) 事务 1 读 取 集合 中 的 所 有 3 条 数据 。 

(2) 事务 2 ER ID 为 2 的 记录 并 更 新 其 Location(City) 属 性 “San Francisco” 为 “San Jose", 
不 过 它 还 没有 提交 修改 。 

(3) 事务 2 提交 第 2 步 的 更 新 。 

(4) 事务 1 重读 集 合 中 的 所 有 3 条 数据 。 

未 授权 读 取 级 别 不 受 修 改 步 缀 的 影响 。 这 个 级 别 允 许 脏 读 ， 因 此 很 明显 读 取 已 提交 的 更 新 
不 会 过 到 任何 问题 。 授权 读 取 就 有 所 不 同 了 。 因 为 第 3 步 里 修改 提交 了 , 所 以 在 第 4 步 里 事务 1 
读 取 到 了 更 新 后 的 数据 。 从 第 1 步 和 第 4 步 旋 取 到 了 不 一 样 的 仁 ， 所 以 这 是 一 个 不 可 重复 谈 取 
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的 例子 。 

当 隔 离 级 别提 高 到 可 重复 读 取 时 , 第 1 步 和 第 4 步 读 取 到 的 值 就 一 样 了 。 即 两 个 事务 并 行 处 
理 时 ,事务 1 与 事务 2 提交 的 更 新 锌 隐 离 开 来 。 尽管 在 这 个 级 别 上 可 重复 读 是 有 保证 的 , 但 是 插 
入 和 删除 相关 记录 仍 有 可 能 发 生 。 这 会 导致 在 一 系列 谈 取 中 ,数据 项 时 而 包括 在 内 ， 时 而 排除 在 
外 ， 这 一 现象 称 为 幻 杀 读 。 下 面 这 个 顺序 的 步 又 演示 了 一 个 幻象 读 的 例子 。 

(1) 事务 1 执行 一 个 范围 查询 ,请 求 d 在 1 和 5 之 间 (包括 1 和 5 ) 的 所 有 数据 项 。 因 为 集 
合 里 原来 有 三 条 记录 且 都 满足 条 件 ， 所 以 所 有 这 三 条 记录 都 作为 结果 返回 。 

(2) 事务 2 接着 插入 一 条 新 记录 : {Id = 4, Name = 'Jane Watson', Occupation = 'Chef', 
Location (City) = 'Atlanta']je 

(3) 事务 2 提交 步骤 2 中 插入 的 数据 。 

(4) 事务 1 重新 运行 第 1 步 的 范围 查询 。 

现在 ， 随 着 隔离 级 别 设置 为 可 重复 读 取 ， 步 又 1 和 步骤 4 返回 给 事务 1 的 数据 集 并 不 一 样 。 
在 步骤 4 中 ， 除 原来 的 三 条 记录 外 ， 还 能 看 到 id 为 4 的 记录 。 为 了 避免 幻象 读 ， 需 要 为 读 施 加 
范围 锁 并 使 用 最 高 级 别 的 隔离 : 可 序列 化 。 可 序列 化 意味 着 顺序 处 理 , 或 者 说 串 行 的 事务 处 理 ， 
但 事实 并 非 总 是 如 此 。 在 一 些 数 据 库 里 ， 可 序列 化 隔离 是 通过 快照 来 实现 的 。 这 些 数据 库 在 每 
个 事务 开始 时 为 事务 提供 一 个 快照 ， 然 后 只 允许 那些 自 创 建 快 照 以 来 没有 发 生 任何 改变 的 事务 
进行 提交 。 

使 用 更 高 的 隔离 级 别 会 增 大 俄 死 〈starvation ) 和 和 死 锁 的 可 能 性 。 一 个 事务 锁 住 了 其 他 事务 要 
使 用 的 人 换 源 时 会 发 生 俄 死 ， 而 两 个 并 发 事务 相互 等 竺 对 方 释放 资源 时 会 发 生死 锁 。 

回顾 完 ACID 事务 和 隔离 级 别 的 概念 , 现在 可 以 开始 探讨 如 何在 高 度 分 布 式 系统 里 运用 这 些 
ABE. 


9.2 SER ACID 系统 


要 理解 ACID 是 否 适 用 于 分 布 式 系统 ， 站 和 完 要 了 解 分 布 式 系统 的 各 种 属性 ， 看 看 ACID 对 它 
们 有 哪些 影 啊 。 

分 布 式 系统 有 各 种 不 同 的 形状 、 大 小 和 形式 , 但 是 它们 都 具备 儿 个 典型 特征 ,并 且 也 面临 相 
似 的 复杂 性 问题 。 随 春分 布 式 系统 逐 潮 增 大 并 伸展 出 去 ,复杂 性 的 挑 成 更 为 突出 。 不 止 如 此 ， 如 
末 系 统 需要 提供 高 可 用 性 ， 那 么 挑战 会 成 倍增 加 。 我 们 和 允 从 基本 的 情况 开始 ， 如 图 9-2 所 示 。 

两 个 应 用 程序 ,每 个 都 连 厦 一 个 数据 库 ， 所 有 四 部 分 各 目 运 行 在 单独 的 机 带 上 。 即 便 是 这 么 
简单 的 情况 ， 提 供 ACID 你 证 的 挑战 也 非 同 小 可 。 在 分 布 式 系 统 中 ，ACID 原则 是 在 open XA 协 
会 所 加 定理 念 的 基础 上 使 用 的 , 它 要 求 使 用 事务 管理 天 或 协调 页 来 管理 分 布 在 多 个 事务 资源 上 的 
事务 。 即 使 有 中 央 协 调 釉 ,实现 器 数据 库 的 隅 离 也 极其 困难 。 这 是 因为 不 同 数据 库 提 供 的 隔离 保 
证 不 同 。 诸 如 两 阶段 锁 (或 其 变种 ， 强 严格 两 阶段 锁 ，SS2PL ) 和 两 阶段 提交 等 一 些 技术 有 助 于 
稍微 改善 情况 。 但 是 这 些 技术 会 导致 操作 阻塞 ， 当 事务 还 在 运行 ,数据 正在 从 一 个 一 致 性 状态 回 
为 一 个 迁移 时 ， 还 会 阻碍 部 分 系统 可 用 。 在 长 事务 里 , 基于 XA 的 分 布 式 事务 就 不 管用 了 ， 因 为 
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长 期 阻塞 殴 源 访问 是 不 切实 际 的 。 应 用 补偿 操作 等 符 代 荣 略 能 玫 助 实现 长 时 间 分 布 式 事务 中 的 事 
PERE., 

















ERAT 1 ERR 2 
应 用 应 用 
程序 1 程序 2 

ERAS I ERR 2 

图 9-2 





A 两 阶段 锁 ( Two-phase locking, 2PL) 是 分 布 式 事务 锁 的 一 种 ， 锁 只 在 第 
一 阶段 获取 ( 而 不 释放 )， 只 在 第 二 阶段 释放 (而 不 获取 )。 

SS2PL 是 一 种 称 为 commitment ordering 的 技术 的 特例 ,更 多 相关 内 容 请 参 

阅 Yoav Raz (1992) 的 研究 论文 “The Principle of Commitment Ordering, or 

Guaranteeing Serializability in a Heterogeneous Environment of Multiple 

Autonomous Resource Managers Using Atomic Commitment” ( www.vldb.org/ 


conf/1992/P292.PDF ) , Proceedings of the Eighteenth International Conference on 
Very Large Data Bases (VLDB), pp. 292-312, Vancouver, Canada, 1992 年 8 FH, 
ISBN 1-55860-151-1 (还 有 DEC-TR 841, Digital Equipment Corporation, 1990 
年 11 月 )。 

两 阶段 提交 ( 2PC ) 是 这 样 一 种 技术 ， 第 一 阶段 里 事务 协调 器 和 所 有 涉及 
的 事务 对 象 进行 确认 ， 而 后 第 二 阶段 里 对 每 个 对 象 实际 发 送 提 交 请 求 。 这 么 做 
通常 能 避免 部 分 失败 ， 因 为 提交 冲突 在 第 一 阶段 里 就 可 以 被 发 现 。 














长 事务 中 资源 不 可 用 的 挑战 在 高 可 用 场景 里 也 会 出 现 。 对 资源 不 可 用 或 短缺 的 容忍 度 越 小 ， 
这 个 问题 就 越 突出 。 

要 想 一 人 怪 地 、 有 条 理 地 解决 在 分 布 式 系统 中 实现 类 ACID 保证 的 难题 ， 就 需要 理解 下 面 三 个 
因 系 在 分 布 式 系统 中 如 何 受 影响 。 

口 一 任性 (Consistency ) 

口 可 用 性 (Availability ) 
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OQ 分 区 容忍 性 ( Partition Tolerance ) 

一 致 性 、 可 用 性 、 分 区 容忍 性 (CAP ) 是 Brewer 定理 的 三 大 支柱 ， 该 定理 承载 着 对 这 一 代 
大 型 可 扩展 分 布 式 系统 事务 完整 性 的 思索 。 人 简单 地 说 ，Brewer 定理 认为 分 布 式 (或 者 横 回 扩展 ) 
的 系统 不 可 能 同时 实现 所 有 这 三 个 特性 〈 一 致 性 、 可 用 性 、 分 区 容 仿 性 )。 系 统 必须 作出 权衡 ， 
至 少 牺牲 一 样 以 成 全 其 他 两 样 。 不 过 在 讨论 权 衔 之 前 ， 很 重要 的 一 点 是 首先 了 解 这 三 个 因 了 又 的 


含义 。 
9.2.1 一 致 性 


一 致 性 定义 不 是 非常 明确 ,在 CAP 的 上 下 文 里 它 意 指 原 子 性 和 隔离 性 。 一 任性 意味 看 一 致 
的 读 写 ， 这 样 并 发 操作 能 看 到 同样 的 有 效 并 且 一 致 的 数据 状态 ， 即 至 少 没 有 过 时 的 数据 。 

在 ACID 里, 一致 性 (C) 指 没 有 满足 约束 的 数据 不 会 被 持久 化 。 这 和 CAP. 里 的 一 致 性 不 
一 样 。 

Brewer 定理 是 Eric Brewer 推理 出 来 的 ，2000 年 作为 ACM Symposium on the Principles of 
Distributed Computing (PODO) 中 的 主题 演讲 由 他 亲自 提出 ( www.cs.berkeley.edu/-brewer/ 
cs262b-2004/PODC-keynote.pdf )。Brewer A X CAP 的 想法 是 他 在 UC Berkeley 和 Inktomi 工作 的 
一 部 分 。2002 年 ，Seth Gilbert 和 Nancy Lynch 证 明了 Brewer 的 推论 ， 目 此 它 被 称 为 Brewer 定理 
(有 时 称 为 Brewer CAP 定理 ), 在 Gilbert 和 Lynch 的 证 明 里 ,一 致 性 被 看 作 原 子 性 .Gilbert 和 Lynch 
的 证 明 可 以 在 已 发 表 论 文 “Brewer’s Conjecture and the Feasibility of Consistent, Available, 
Partition-Tolerant Web Services” 中 找到 。 要 获取 这 篇 论文 可 以 访问 : http://theory.lcs.mit.edu/tds/ 
papers/Gilbert/Brewer6.pso 

在 单个 节点 上 ， 一 致 性 可 以 用 数据 库 的 ACID 语义 实现 , 但 是 当 系统 横向 扩展 出 去 ， 变 成 分 
MAE, SETRSUEBAIEIASE T. 




















9.2.2 可 用 性 


可 用 性 意味 着 系统 在 需要 时 可 以 提供 服务 。 作 为 推论 ,如 果 一 个 系统 很 从、 无 法 沟通 ,或 者 
访问 时 没有 响应 ， 则 被 认为 是 不 可 用 的 。 有 些 人 ， 特 别 是 那些 试图 反驳 CAP 定理 及 其 重要 性 的 
人 ， 争 论说 有 轻微 延迟 或 阻塞 仍 算得 上 可 用 。 不 过 在 CAP 定义 里 没有 任何 合 糊 ， 只 要 系统 在 需 
要 时 不 能 服务 请 求 ， 它 就 是 不 可 用 的 。 

这 也 就 是 说 ， 许 多 应 用 程序 都 可 以 在 可 用 性 上 做 妥协 ， 这 是 一 个 可 选 的 权衡 选项 。 

















9.2.3 分 区 容忍 性 


并 行 处 理 和 横向 扩展 已 经 被 证 明 是 行 之 有 效 的 方法 ， 而 且 正在 逐渐 被 采纳 为 可 扩展 性 和 高 性 
能 计算 的 模型 ， 与 之 对 立 的 是 向 上 扩展 和 构建 大 规模 超级 计算 机 。 过 去 的 几 年 已 经 表明 , 大 多 数 情 
BUT, 建设 一 体 化 的 巨型 计算 机 既成 本 高 昂 又 不 切实 际 。 添加 大 量 商用 硬件 单元 到 集群 中 , 使 它们 
协同 工作 才 是 更 具 成 本 、 算 法 和 资源 效率 的 高 效 解 决 方案 。 云 计算 的 涌现 正 是 这 一 事实 的 证 明 。 
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阅读 下 文 的 附注 栏 可 以 了 解 两 种 不 同 扩展 琳 略 之 间 的 权衡 。 

因为 选择 了 横 回 扩展 的 道路 , 就 注定 了 分 区 和 集群 中 偶尔 会 出 现 错误 。CAP 的 第 三 根 文 柱 在 
于 分 区 容 名 性 ， 或 者 说 容错 性 。 换 句 话 说 ， 分 区 容 八 性 衡量 了 系统 在 部 分 成 员 不 可 用 情况 下 继续 
提供 服务 的 能 

















王 直 扩展 的 挑战 与 分 布 式 计算 的 诺 误 
过 去 ,传统 选择 更 偏好 一 致 性 ， 因 此 一 直 以 来 系统 架构 师 们 会 避 开 横向 扩展 , 而 选择 向 上 
扩展 。 向 上 扩展 或 者 重 直 扩展 意味 着 需要 更 大 更 强 的 机 器 ,很 多 情况 下 拥有 更 大 更 强 的 机 器 都 
没 问 题 ， 但 也 常常 具有 以 下 特点 。 

口 厂商 依赖 。 并 不 是 每 个 人 都 制造 强大 的 机 器 ,而 强大 机 器 的 制造 者 们 常常 依赖 专 有 技术 ， 
以 提供 你 所 需要 的 力量 和 效率 。 这 就 导致 厂商 依赖 的 可 能 性 。 厂 商 依赖 本 身 并 不 是 件 坏 
事 ， 至 少 不 像 它 常 被 说 成 的 那样 。 多 年 来 ， 许 多 应 用 程序 成 功 地 构建 出 来 ， 并 运行 在 专 
有 技术 之 上 。 然 而 它 确实 限制 了 你 的 选择 ， 而 且 灵 活性 也 比 开 放 的 对 手 更 差 。 

口 更 高 成 本 。 强 大 的 机 器 通常 比 一 般 商业 硬件 贵 很 多 。 

口 数据 增长 上 限 。 强 大 的 机 器 能 一 直 工 作 ， 直 至 数据 增长 到 填 满 为 止 。 到 那 时 ， 除 了 换 上 
更 大 的 机 器 ， 或 者 横向 扩展 ， 没 有 其 他 选择 。 再 大 的 机 器 ， 承 载 的 数据 量 以 及 执行 的 处 
理 数量 也 有 限度 。( 现实 生活 中 ， 团 队 比 个 人 超级 英雄 更 好 ! ) 

口 提 前 配置 。 许多 应 用 程序 在 刚 开始 的 时 候 都 不 会 意识 到 最 终 规模 有 多 大 。 如 果 选 择 重 直 
扩展 作为 扩展 策略 ,就 需要 为 大 规模 提前 做 打算 。 预 估 和 规划 扩展 性 需求 极其 困难 复杂 ， 
因为 使 用 量 、 数 据 和 交 甸 的 增长 一 般 难 以 预测 。 

鉴于 垂直 扩展 所 带 来 的 挑战 ,在 近 几 年 里 水 平 扩展 逐渐 成 为 扩展 策略 之 选 。 水 平 扩展 意味 

着 系统 分 布 在 多 台 计 算 机 或 节点 上 ,其 中 每 个 节点 可 以 是 某 种 符合 成 本 效益 的 商用 机 器 。 任何 
分 布 在 多 个 节点 上 的 事物 都 要 受到 分 布 式 计算 之 廖 的 影响 。 下面 是 一 个 列表 , 其 中 列 出 了 一 系 
列 在 分 布 式 系统 背景 下 ， 开 发 者 常 认为 是 理所当然 ， 但 又 常常 不 成 立 的 假设 。 

口 网 络 是 可 靠 的 。 

口 延 迟 为 0。 

口 带宽 是 无 限 的 。 

口 网 络 是 安全 的 。 

O 拓扑 不 会 发 生变 化 。 

D 

Q 传输 成 本 为 0。 

口 网 络 都 是 同类 型 的 。 

分 布 式 计算 之 雇 归 功 于 Sum Microsystems ( 现在 是 Oracle 的 一 部 分 )。 Peter Deutsch 提出 

了 列表 中 最 初 的 七 项 。Bill Joy、Tom Lyon 和 James Gosling 也 对 这 个 列表 作出 了 贡献 。 了 解 更 
多 有 关 廖 论 的 内 容 请 访问 : http://blogs.oracle.com/jag/resource/Fallacies.html。 


灵 社 区 会 员 DanyLee 专 享 尊重 版 权 


9.3 维持 CAP 151 


9.3 维持 CAP 


Brewer 定理 指出 , 在 一 个 大 型 分 布 式 系统 里 同时 实现 一 致 性 、 可 用 性 和 分 区 容忍 性 是 不 可 能 
的 。 你 可 以 (而 且 应 该 ) 读 读 Gilbert 和 Lynch 的 证 明 ， 以 深入 理解 如 何以 及 为 何 Brewer 是 正确 
的 。 不 过 为 了 快速 直观 地 演示 ,我 用 一 个 简单 的 例子 来 解释 一 下 核心 概念 ， 这 个 例子 用 两 个 图 显 
示 : 图 9-3 和 图 9-4。 
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图 9-3 和 9-4 显示 了 一 个 集群 系统 的 两 个 节点 ， 进 程 A 和 B 分别 从 X 和 X' 获 取 数 据 。X 和 
X' 是 复制 的 数据 存储 〈 或 结构 )， 保 存 着 相同 数据 的 副本 。A 写 X 而 了 B 读 X。X 和 X' 相 互 同步 。 
V 是 存储 在 X 和 XX' 上 的 条 目 或 对 象 。V 的 初始 值 是 v0。 图 9-3 展示 了 一 个 成 功 的 例子 ，A 写 v 
A V (更 新 其 初始 值 v0 ), v1 从 义 同 步 到 X', 然后 B 从 X' 读 取 V 值 v1。 图 9-4 展示 了 一 个 失败 
的 例子 , A 写 v1 到 V 而 B 读 V 值 , 但 是 X 和 X' 之 间 的 同步 失败 了 , 因此 B 读 到 的 值 与 最 新 的 V 
值 并 不 一 致 。B 仍然 谈 到 vo, 但 最 新 值 是 vlo 

如 果 要 确保 B 总 能 读 到 正确 的 值 ， 就 需要 确保 从 XX 同步 复制 v1 到 X'。 换 句 话 说， 以 下 这 两 
个 操作 : (1)A 更 新 X 中 V 值 v0 为 v1; (DV 的 更 新 值 ( 即 v1) 被 从 X 复 制 到 X'， 必 须 处 于 一 个 
事务 中 ， 描 述 见 图 9-$。 这 个 设置 会 保证 分 布 式 事务 的 原子 性 ， 但 会 影响 延迟 和 可 用 性 。 如 果 
图 9-4 的 失败 出 现 ， 资 源 会 被 阻塞 ， 直 至 网 络 恢复 上 且 从 X 到 X' 的 复制 完成 为 止 。 








单个 事务 
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如 果 XI X' 之 间 的 数据 复制 是 异步 的 ， 那 就 没 办 法 知道 它 发 后 的 准确 时 间 。 如 果 不 能 知道 
事件 发 生 的 准确 时 间 , 很 明显 也 无 从 保证 事件 发 生 了 ,除非 显 式 寻 找 共识 或 确认 。 如 果 需 要 等 待 
共识 或 确认 ， 那 异步 操作 对 延迟 或 可 用 性 的 影响 和 同步 操作 束 没 太 大 区 别 。 所 以 无 论 何 种 方式 ， 
只 要 系统 是 分 布 式 的 ， 且 错误 会 发 生 ， 就 需要 明白 数据 一 致 性 、 系 统 可 用 性 和 分 区 容 仍 性 之 间 的 
权衡 ， 选 择 两 项 更 重要 的 ， 并 因此 证 第 三 项 作出 妥协 。 
下面 是 可 能 的 选择 。 

口 选项 1: 受 协 可 用 性 ， 选 择 一 致 性 和 分 区 容忍 性 。 

口 选项 2: 受 协 分 区 容忍 性 ， 选 择 一 至 性 和 可 用 性 。 

口 选项 3: 妥协 一 臻 性， 但 系统 总 是 可 用 的 ， 而 且 不 受 其 中 一 部 分 被 分 区 的 影响 。 

传统 RDBMS 在 横向 扩展 的 情况 下 选择 了 选项 1。 这 种 情况 下 ， 可 用 性 会 受到 许多 因素 的 影 
其 中 包括 下 面 这 些 。 

O 网 络 延 迟 造成 延迟 。 

口 通信 瓶颈 。 

口 资源 不 足 。 

OQ 硬件 错误 引发 分 区 。 
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9.3.1 受 协 可 用 性 


极端 情况 下 , 市 点 失败 后 整个 系统 可 能 会 完全 不 可 用 , 直至 市 点 恢 复 并 且 系 统 恢复 到 一 伊 的 
状态 。 里 然 不 可 用 看 似 非 第 不 利于 业务 的 延续 性 , 但 有 时 这 是 唯一 的 选择 。 要 么 数据 处 于 一 致 状 
态 , 要 么 事务 失败 。 这 是 典型 的 金钱 和 时 间 人 敏感 事务 , 失败 情况 下 的 补偿 事务 是 完全 无 法 接受 的 ， 
或 者 要 承担 非常 高 的 成 本 。 两 个 账户 转账 的 经 典 案例 稼 作为 这 类 用 例 和 被 引用 。 不 过 在 现实 生活 中 ， 
对 这 种 极 问 情 次， 银行 有 时 也 会 采用 一 些 宽 松 的 特 代 方案 ， 稍 后 讨论 弦 一 致 性 时 会 捉 到 。 

很 多 情况 下 ， 系 统 〈 包 括 那 些 基 于 RDBMS 的 ) 支持 备份 、 快 速 复制 和 错误 恢复 。 这 意味 者 
系统 在 很 短 的 一 段 时 间 里 可 能 还 会 处 于 不 可 用 状态 。 大 部 分 情况 下 , 轻微 的 不 可 用 并 不 是 灾难 性 
的 ， 因 此 这 是 一 个 可 行 的 选择 。 


















































9.3.2. XD AeGE 


有 些 情 况 下 ， 最 好 还 是 不 要 妥协 分 区 容忍 性 。 刚 刚 我 提 到 过 ， 在 横 回 扩展 的 系统 中 ， 有 点 和 失 
败 是 必然 的 , 失败 几率 会 随 着 方 点 数量 的 增加 而 增 大 。 这样 一 来 分 区 容 久 性 怎 能 是 一 个 可 选项 ? 
许多 人 会 混 汪 分 区 容 妨 性 和 容错 , 但 这 两 个 概念 并 不 相同 。 如 果 一 个 系统 无 法 为 受 网 络 隔离 的 分 
区 提供 服务 ， 但 是 能 瞬间 切换 到 其 他 和 点 ， 那 它 是 容错 的 ， 但 是 不 具备 分 区 容 航 性 。 

Google Bigtable 提供 了 数据 存储 的 高 可 用 性 、 强 一 致 性 ， 但 在 分 区 容忍 性 上 做 了 妥协 。 这 个 
系统 是 容错 的 , 单方 点 失败 时 很 容易 存活 , 但 它 不 是 分 区 容忍 的 。 更 准确 地 说 , 在 出 错 的 情况 下 ， 
它 会 标识 出 一 个 分 区 的 主 从 部 分 ， 并 符 试 通过 选举 来 解决 问题 。 

为 了 进一步 理解 这 点 ， 可 能 要 回顾 在 第 4 草 里 学 的 有 关 Bigtable ( 及 HBase 等 类 似 产 品 ) 的 
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内 容 。4.2 市 的 内 容 与 此 最 相关 。 

Bigtable 以 及 相似 的 其 他 软件 都 使 用 了 主 从 模式 ， 其 中 列 族 数据 存储 在 一 个 region server Eo 
region server 由 主 服务 硕 动 态 配 置 管理 。 在 Google Bigtable 中 ， 数 据 存 储 在 底层 的 Google 
FileSystem ( GFS ) 中 ， 而 整个 架构 通过 Chubby 进行 协调 ，Chubby 使 用 像 Paxos 这 样 的 选举 算法 
来 确保 一 致 性 。 对 HBase, HDFS 执行 与 GFS 相同 的 功能 , 而 ZooKeeper 替代 Chubby, ZooKeeper 
使 用 选举 算法 从 一 个 失败 节点 中 恢复 。 

出 现 错 误 时 ，ZooKeeper 确定 出 哪个 是 主 分 区 ， 哪 个 是 从 分 区 。 基 于 这 些 推 新，ZooKeeper 
会 将 所 有 读 写 操作 定 问 到 主 分 区 上 ， 从 分 区 改 为 只 读 ， 下 至 问题 解决 。 

除 此 之 外 ，Bigtable 和 HBase ( 及 其 底层 文件 系统 ，GFS 和 HDFS ) 对 每 个 数据 集 分 别 存 储 
三 份 。 这 样 在 三 份 中 的 一 份 出 错 或 无 法 同步 的 情况 下 ,， 可 通过 协商 方式 保持 一 致 性 。 少 于 三 份 找 
由 就 无 法 达成 共识 。 


9.3.3” 受 协 一 致 性 


有 些 情况 下 ,不 能 受 协 可 用 性 ， 而 系统 是 如 此 高 度 分布 ， 以 至 于 分 区 容 妨 是 必须 的 。 这 时 就 
有 可 能 要 妥协 强 一 致 性 。 与 强 一 致 性 对 应 的 是 弱 一 致 性 , 因此 所 有 这 些 妥 协 一 致 性 的 情况 都 可 以 
算 作 是 这 一 组 。 弱 一 致 性 是 一 个 系列 ,包括 没有 一 致 性 和 最 终 一 致 性 。 对 那些 不 限制 更 新 数据 方 
式 的 重要 系统 , 数据 不 一 致 也 许 不 可 行 , 但 最 终 一 致 性 却 可 以 。 最 终 一 致 性 的 定义 也 不 是 很 清晰 ， 
不 过 间接 提 到 一 个 事实 : 经 过 更 新 ， 集群 所 有 节点 最 终 将 看 到 同样 的 状态 。 如 果 “ 最 终 ” 可 以 限 
制 在 特定 范围 里 ， 那 么 最 终 一 致 性 模型 就 可 行 。 

例如 ， 即 便 无 法 与 库存 系统 确认 商品 是 否 足 够 ， 购物 车 也 可 以 允许 下 订单 。 少 数 情况 下 ,， 订 
购 的 产品 可 能 脱销 了 。 这 时 ， 用户 订单 可 以 作为 后 人 台 订 单 ， 进 货 时 再 处 理 。 再 举 男 一 个 例子 ， 即 
便 无 法 确认 可 用 金额 ， 银 行 卡 也 可 以 允许 客户 提取 达到 透支 额度 的 金额 ， 所 以 在 最 坏 的 情况 下 ， 
即使 钱 不 够 ， 交 易 也 仍然 有 效 ， 可 以 用 透支 额度 的 方法 。 

要 理解 最 终 一 致 性 ， 我 们 可 以 试 着 用 下 面 三 个 条 件 来 演示 。 

OR: 被 读 取 的 节点 的 数量 。 

QW: 被 写 人 的 节点 的 数量 。 

ON: 集群 节点 总 数 。 

这 三 个 参数 的 不 同 组 合 对 整体 的 一 致 性 会 有 不 同 的 影响 。 保持 及 <N 和 W<N 可 以 允许 高 可 

用 性 。 下 面 是 一 些 值得 了 解 的 常见 情况 。 

口 R+W>N。 这 种 情况 下 ， 很 容易 建立 一 致 的 状态 ， 因 为 一 些 读 和 写 的 节点 存在 重 琶 。 极 端 
情况 是 : R-N H W=N CHI R+W=2N )， 此 时 系统 绝对 是 一 致 的 ， 而 且 可 以 提供 ACID 
保证 。 

DR=1，W=N。 系 统 中 谈 多 于 写 时 ， 把 恋 负 载 分 散 到 集群 的 所 有 节点 上 就 是 有 意义 的 。R=1 
时 ， 就 读 操作 而 言 ， 每 个 节点 都 独立 于 其 他 节点 。W=N 的 写 配 置 意味 着 每 次 更 新 都 会 写 
所 有 市 点 。 一 旦 某 个 节点 失败 ， 则 整个 系统 都 不 可 写 。 
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口 R=N，W=1。 如 果 写 1 个 节点 就 够 ， 数 据 不 一 致 的 可 能 性 就 会 非常 高 。 不 过 如 果 R-N, 
只 有 集群 所 有 市 点 都 可 用 时 才能 读 。 

O R=W=ceiling((N+1) 12)。 这 种 情况 下 能 通过 有 效 的 选举 提供 最 终 一 致 性 。 

Eric Brewer 和 他 的 同事 们 发 明了 BASE 这 个 术语 来 表示 最 终 一 致 性 。BASE 表示 基本 可 用 软 
状态 最 终 一 致 Basically Available Soft-state Eventually consistent )， 它 设计 出 来 显然 是 要 与 ACID 
对 立 。 不 过 ACID 和 BASE 并 不 是 对 立 的 , 实际 上 , 它们 不 过 是 描述 一 致 性 光谱 中 的 不 同 点 婴 了 。 

最 终 一 致 性 表现 为 多 种 形式 ， 也 可 以 用 很 多 方式 来 实现 。 一 个 策略 是 用 面 癌 消息 的 系统 ， 另 
一 个 则 利用 基于 选举 的 共识 。 在 面 癌 消息 的 系统 里 , 可 以 使 用 消息 队列 传播 更 新 。 最 简单 的 情况 ， 
可 以 用 唯一 的 序列 标识 符 对 更 新 排序 。 第 4 草 解 释 过 Amazon Dynamo 及 其 最 终 一 致 性 模型 的 基 
本 原理 ， 你 可 以 回去 查阅 。 

下 一 方 里 ,我 会 解释 一 些 流行 NoSQL 产品 中 的 一 任性 。 我 不 会 详尽 地 禾 盖 所 有 产品 ， 而 只 
会 有 选择 地 挑 一 部 分 讲 。Google Bigtable 和 HBase 一 人 致 性 模型 已 经 介绍 过 了 ， 所 以 我 会 跳 过 这 些 
产品 。 本 廊 将 介绍 文档 数据 库 和 最 终 一 致 性 认 手 ( 如 Cassandra ) 的 一 致 性 。 























9.4 NoSQL 产品 的 一 致 性 实现 
本 节 先 介绍 分 布 式 文档 数据 库 MongoDB 和 CouchDB 中 的 一 致 性 。 
9.4.1 MongoDB 的 分 布 一 致 性 


MongoDB 没有 规定 一 致 性 模型 ， 但 是 默认 强 一 致 性 。 在 某 些 情况 下 ，MongoDB 可 以 ， 而 且 
会 配置 为 最 终 一 致 性 。 

在 目 动 分 斤 的 、 局 用 复制 的 集群 中 ,， 殉 认 每 个 分 片 里 有 一 个 主机 。 这 种 部 署 的 一 致 性 模型 很 
强 。 不 过 有 某 些 情况 下 ， 可 以 部 署 MongoDB 以 提供 更 高 的 可 用 性 和 分 区 容 仍 性 。 其 中 一 种 情况 是 
采用 单个 主机 作为 唯一 的 写 节 点 ,多 个 从 市 点 谈 取 。 如 果 一 个 从 市 点 已 经 从 集群 中 分 离 出 去 , 但 
还 在 为 客户 问 提 供 服 务 , 它 可 能 会 提供 过 时 的 数据 。 分 区 恢复 以 后 , 这 个 从 市 点 会 接收 所 有 更 新 ， 
从 而 实现 最 终 一 致 。 


























9.4.2 ”CouchDB 的 最 终 一 致 性 


CouchDB 的 最 终 一 致 性 模型 依赖 两 个 重要 的 属性 : 

口 多 版 本 并 发 控制 (MVCC) 

口 复制 

CouchDB 里 每 个 文档 都 有 版 本 ， 所 有 对 文档 的 更 新 都 会 被 标记 上 唯一 修订 号 。CouchDB 是 
高 可 用 的 分 布 式 系统 ， 通 过 放 宫 一 致 性 文 持 可 用 性 。 

REIER, 4€ PU CA) 访问 一 个 版 本 化 的 文档 及 其 当前 版 本 号 。 为 了 清楚 起 见 ， 我 们 
假设 文档 名 为 D， 当 前 版 本 或 修订 号 是 vlo 在 客户 问 A 忙 着 读 取 文档 而 且 可 能 试图 更 新 文档 时 ， 
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7 Um B 访 问 了 同一 个 文档 D， 并 了 解 到 它 的 最 新 版 本 是 vl. Ar m B 位 于 能 控制 D 的 独立 线 
EH, PR, EAP im ARER, Ar im B 做 好 了 更 新 文档 的 准备 ， 它 更 新 了 文档 D， 并 增 
加 它 的 版 本 (或 修订 ) 写 到 v2. MKP Ym Aci OS XE D 的 更 新 回来 时 ， 它 意识 到 文档 目 它 上 
次 访问 已 经 被 更 新 了 。 

这 会 在 提交 时 导致 冲突 。 华 运 的 是 ， 版 本 (或 修订 ) 写 可 以 用 来 解决 这 个 冲突 。 图 9-6 是 对 
这 个 更 新 冲突 的 图 形 展 示 。 

















K| 9-6 


这 样 的 冲突 通 第 可 以 通过 客户 端 A 在 提交 更 新 前 重读 DRAR, EER, WR A 发 现 它 
所 使 用 的 快照 版 本 (这 里 是 vl) 已 经 过 期 了 ， 它 就 可 以 在 最 新 读 取 的 结果 上 再 应 用 更 新 ， 然 后 
提交 更 新 。 这 种 冲突 解决 方法 在 版 本 控制 软件 中 很 常见 。 现 在 许多 版 本 控制 软件 (比如 Git 和 
Mercurial ) 都 采用 MVCC 来 管理 数据 失真 ， 避 人 免 提 交 剖 突 。 

CouchDB 是 可 扩展 的 分 布 式 数据 库 ， 所 以 尽管 MVCC 能 处 理 单个 实例 上 冲突 的 情景 ， 但 并 
不 代表 它 能 保持 数据 库 的 所 有 副本 为 当前 最 新 。 此 时 就 是 复制 开始 接手 的 时 候 了 。 复 制作 为 一 种 
各 见 的 成 熟 技术 , 用 于 同步 任意 两 个 数据 存储 节点 。 它 最 简单 的 形式 即 文件 同步 程序 rsync, € 
能 为 文件 系统 单元 〈 例 如 目录 ) 实现 同样 的 目的 。 

CouchDB 集群 所 有 节点 的 数据 会 在 复制 进程 的 帮助 下 最 终 达到 一 致 。 在 CouchDB 中 复制 是 
增 量 的 和 容错 的 。 因 此 , 复制 时 只 有 修改 (或 增 量 更 新 ) 会 被 传送 , 传送 过 程 中 如 果 进 程 出 错 了 ， 
也 可 以 平 请 地 恢复 。CouchDB 的 复制 机 制 能 感知 状态 ， 失 败 后 会 从 上 次 停止 的 地 方 再 重新 开始 。 
因此 避免 了 多 余 的 重启 ， 并 且 设 计 中 也 考虑 到 了 网 络 失败 的 内 在 倾向 或 节点 不 可 用 的 情形 。 

CouchDB 的 最 终 一 任性 模型 赋 有 效 叉 高 效 。CouchDB 集群 通 稍 构 成 主 - 主 和 点， 这 样 每 个 节 
点 束 可 以 独立 服务 请 求 ， 从 而 同时 增强 可 用 性 和 啊 应 性 。 

综 贤 文档 数据 库 之 后 ， 计 我 们 继续 去 了 解 一 下 Apache Cassandra 的 最 终 一 致 性 模型 。 


























9.4.3 Apache Cassandra 的 最 终 一 致 性 





Apache Cassandra 的 目标 是 成 为 像 Google Bigtable 和 Amazon Dynamo 那样 的 系统 。 从 CAP 
定理 的 观点 来 看 ， 这 意味 着 Cassandra 要 提供 两 种 权衡 的 选择 。 

O 支持 一 致 性 和 可 用 性 : Bigtable 模型 。 

口 支持 可 用 性 和 分 区 容忍 性 : Dynamo 模型 。 

这 两 个 模型 本 章 前 面 都 介绍 过 了 。Cassandra 通过 把 最 终 的 一 至 性 配置 留 给 开发 者 实现 了 这 
一 点 。 作 为 一 名 开发 者 ， 你 的 选择 如 下 。 
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O 设置 R+ W>N 实 现 一 致 性 。 其 中 R、W 和 N 分别 代表 读 复 制 节点 数量 、 写 复制 数量 以 
及 节点 总 数量 。 
O 设置 R=W=ceiling(N+D 712) 实 现 选 举 。 这 是 最 终 一 致 性 的 情况 。 
也 可 以 设置 写 全 一 致 的 情况 ( 其 中 W = N )， 不 过 这 种 配置 可 能 有 些 环 手 ， 因 为 一 旦 失败 ， 
会 导致 整个 应 用 不 可 用 。 
我 们 最 后 来 快速 了 解 一 下 Membase 的 一 致 性 模型 。 

















9.4.4 Membase 的 一 致 性 


Membase 是 兼容 Memcached 协议 的 分 布 式 键 / 值 存储 ， 提 供 高 可 用 性 和 强 一 致 性 ， 但 不 文 持 
分 区 容 仍 性 。Membase 是 立即 一 致 的 。 如 果 需 要 分 区 ， 可 以 用 外 部 工具 从 Membase 主机 向 从 机 
复制 数据 ， 但 这 不 是 系统 功能 。 

此 外 ，Membase 和 Memcached 一 样 ， 善 于 保持 时 间 敏 感 的 缓存 。 在 一 个 即刻 的 强 一 致 性 模 
型 里 ， 清 除 超 过 定义 好 的 时 间 间 隔 的 数据 非常 容易 ,而且 有 可 靠 的 文 持 。 为 时 间 人 敏感 数据 文 持 不 
一 致 的 窗口 反而 是 个 挑战 。 

在 介绍 过 NoSQL 的 事务 管理 和 一 些 产 品 之 后 ， 我 们 来 对 本 和 曹 做 个 总 结 。 











9.5 小 结 


KESER, 但 可 能 是 本 书 中 最 草 要 的 莉 方 之 一 。 本 章 清 楚 解 释 了 ACID 的 概念 及 其 
可 能 的 蔡 代 物 BASE, 解释 了 Brewer 的 CAP 定理, 并 试图 将 其 重要 意义 与 分 布 式 系统 关联 起 来 ， 
为 在 流行 的 和 广泛 使 用 的 各 种 系统 中 ， 它 们 正在 逐渐 成 为 标准 。 

一 致 性 及 其 各 种 形式 ,不 管 是 强 的 还 是 弱 的 ,我 们 都 分 析 了 。 最 终 一 致 性 作为 在 分 区 条 件 下 
能 提供 更 高 可 用 性 的 一 种 可 行 的 符 代 方案 被 所 了 出 来 。 

由 于 NoSQL 宽松 的 一 致 性 配置 ， 强 一 致 性 倡 寻 者 们 一 直 神 拒绝 认真 地 考虑 NoSQL 数据 库 。 
虽然 在 许多 交易 系统 中 一 致 性 都 是 重要 需求 , 但 是 要 么 强 一 致 妥 么 没 一 致 的 方式 也 在 用 户 中 引起 
了 许多 的 咪 惧 、 不 确定 和 怀疑 。 硕 望 本 章 明 确 列 出 的 这 些 选 择 能 够 让 你 有 所 理解 。 

最 后 ,尽管 本 章 解 释 了 最 终 一 致 性 ,但 并 不 是 说 建议 采用 它 作 为 一 致 性 模型 。 最 终 一 致 性 有 
它 的 用 武之 地 , 在 有 分 区 且 能 安全 提供 高 可 用 性 的 场景 中 应 该 使 用 最 终 一 致 性 。 不 过 要 牢记 ， 最 
终 一 致 性 也 充满 了 游 在 的 有 麻烦。 在 最 终 一 致 性 模型 上 设计 和 如 构 应 用 绝 不 是 件 轻松 的 事 。 如 采 事 
务 完整 性 非常 重要 ,缺少 它 会 严重 扰乱 正 笛 操 作 , 那么 束 需 要 非 笛 谨慎 地 决定 是 否 采 用 最 终 一 致 
性 ， 要 充分 认识 到 所 作 选 择 的 利 浆 。 
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使 用 云 中 的 NoSQL 


本 章 内 容 

口 探索 随时 可 用 的 云 中 NoSQL 数据 库 

口 利用 Google AppEngine 及 其 可 扩展 的 数据 存储 
口 使 用 Amazon SimpleDB 











2— 


EN 的 流行 应 用 ， 比 如 Google 和 Amazon, AKEKE EREE RENEM 
个 数据 中 心里 ， 来 实现 高 可 用 性 和 并 发 服务 数 百 万 用 户 的 能 力 。 像 Google 和 Amazon 
这 样 的 大 规模 Web 应 用 的 成 功 证 明 ， 在 水 平 扩展 环境 中 ，NoSQL 解决 方法 往往 比 关 系 型 对 手 更 
次 眼 。 水 平 扩展 环境 按 需 供应 已 被 命名 为 “ 云 "。 如 果 可 扩展 性 和 可 用 性 优先 级 更 高 ， 那 么 云 中 
NoSQL 可 能 就 是 比较 理想 的 配置 。 


















某 些 情况 下 ,关系 型 和 非 关 系 型 存储 会 组 合 使 用 。 要 说 在 水 平 扩展 环境 里 
只 有 NoSQL 可 行 可 能 有 失 偏 颇 。 应 用 程序 的 很 多 方面 跟 期 望 的 规模 、 底 层 数 
据 结 构 和 事务 完整 性 有 关 。 
















世界 上 存在 许多 云 服务 提供 商 和 可 用 的 NoSQL 产品 。 就 其 中 一 些 提 供 疝 来 说 , 例如 Amazon 
EC2 ( Elastic Compute Cloud， 弹 性 计算 云 )， 你 可 以 选择 安装 任何 想 要 使 用 的 NoSQL 产品 。 附 
录 A 包括 了 在 EC2 集群 上 安装 一 些 流行 NoSQL 产品 的 指南 。 虽 然 有 目 己 选择 的 目 由 , 但 也 有 一 
些 云 服 务 提 供 疝 提供 了 完全 安装 好 、 配 置 好 的 数据 库 基 础 设施 ， 随 时 供 你 使 用 ,这 会 让 你 省 力 不 
少 。 本 章 覆 盖 了 云 中 NoSQL 的 选择 。 





云 里 的 关系 型 数据 库 

许多 关系 型 数据 库 都 在 云 中 提供 ， 其 中 最 突出 的 是 下 面 这 些 。 

口 Windows Azure 平台 上 的 Microsoft SQL data service ( microsoft.com/windowsazure )。 

L] Amazon Relational Database Service ( RDS ), 它 是 MySQL 实例 的 集群 ( http;/aws.amazon.comvrds/ ). 

此 外 , 还 有 许多 Amazon Machine Image ( AMI) 选项 ,支持 Oracle, PostgresSQL, MySQL 
等 ， 让 你 可 以 在 EC2 环境 中 上 建立 自己 的 数据 库 集群 。 一 些 RDBMS 厂商 (如 Oracle 和 
Greenplum ) 也 开始 为 私有 云 环境 提供 解决 方案 。 尽 管 可 能 具备 可 扩展 性 ， 但 在 私有 云 是 否 算 
是 云 这 个 问题 上 ,仍然 存在 公开 的 辩论 。 
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本 草 介 绍 两 种 云 中 NoSQL: Google Bigtable 和 Amazon SimpleDB, ， 还 会 简短 介绍 其 他 一 
些 新 兴 数 据 库 : CouchOne, MongoHQ 和 Riak on Joyent's Smart machines. 


Google 通过 发 布 可 对 外 提供 服务 的 、 易 于 使 用 的 基础 架构 和 题 黎 了 整个 云 计算 领 域 ， 但 是 
Google 并 不 是 第 一 个 发 布 云 产 品 的 。 在 Google 首次 宣布 其 服务 时 ,Amazon EC2 早已 是 市 场 上 声 
名 显赫 的 一 员 了 。 然 而 Google 的 模型 如 此 便利 ， 它 的 云 平台 Google App Engine (GAE ) 在 很 短 
的 时 间 内 就 被 广泛 传播 和 采用 。 这 个 应 用 程序 引擎 也 并 非 没 有 局 限 性 , 它 的 沙 盒 环境 以 及 缺少 对 
长 时 间 运 行进 程 的 文 持 是 令 人 讨厌 的 几 方 面 之 一 。 

本 章 从 GAE 基于 Bigtable 的 数据 存储 开始 ， 用 插图 和 例子 来 展示 这 个 数据 存储 的 能 力 和 建 
议 的 使 用 模式 。 











10.1 Google App Engine 


Google App Engine ( GAE) 为 应 用 程序 提供 了 沙 箱 部 署 环境 ， 应 用 程序 可 以 用 Python 或 者 
任意 一 种 能 够 在 Java 虚拟 机 (Java Virtual Machine, JVM ) 上 运行 的 语言 来 编写 。Google 为 开发 
者 提供 了 丰富 的 API 和 SDK， 用 来 为 应 用 服务 引擎 构建 应 用 程序 。 

为 了 解释 数据 存储 的 功能 和 可 用 的 数据 建 模 API， 我 们 首先 使 用 应 用 引擎 的 Python SDK 来 
介绍 相关 内 容 。 随 后 讨论 超出 共同 概念 的 部 分 ， 特 别 是 和 Java SDK 有 关 的 功能 。 








10.1.1 GAE Python SDK: 安装 、 设 置 和 起 步 


首先 需要 安装 Python 和 GAE Python SDK。 你 可 以 从 python.org 下 载 Python， 从 地 址 
http://code.google.com/appengine/downloads.html#Google App Engine SDK for Python 得 到 GAE 
Python SDKE。 话 细 的 安 妆 指责 超出 了 本 书 的 范 胃 ， 不 过 在 所 有 文 持 的 环境 里 安 闻 Python M GAE 
Python SDK 都 相对 简单 直接 。 如 采 你 在 设置 环境 时 遇 到 了 问题 ， 可 以 Google 一 下 解决 办 法 ， 和 
大 多 数 开发 者 一 样 ， 你 不 会 失望 的 。 

虽然 本 章 主要 专注 于 GAE 数据 存储 ， 不 过 了 人 解 如 何在 应 用 引 警 上 开发 程序 还 是 有 好 处 的 。 
针对 Python SDKE， 不 妨 稍微 花 点 时 间 阅 旋 一 下 名 为 “Getting Started: Python” 的 入门 教程 ， 在 线 
访问 地 址 : http://code.google.com/appengine/docs/python/gettingstarted/, YE GAE 上 构建 的 应 用 都 
是 Web 应 用 。 入 门 教程 将 会 解释 下 列 内 容 。 

口 在 GAE 上 构建 Python Web 应 用 的 基础 知识 。 

O 请 求 是 如 何 处 理 的 ， 啊 应 是 如 何 服务 的 。 

O URL EASRA EA EFE EAS o 

Q 如 何 包含 动态 和 静态 内 容 。 

Q 数据 是 如 何 建 模 和 存储 在 底层 数据 存储 中 的 。 

口 如 何 使 用 模板 来 解 簿 视图 和 逻辑 。 

口 如 何 利用 像 认 证 、 邮 件 、 任 务 队列 和 Memcache 这 样 的 服务 。 

口 构建 好 的 应 用 程序 如 何 部 署 到 本 地 开发 服务 大 上 。 
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口 如 何 把 应 用 程序 部 署 到 生产 环境 里 。 

教程 非常 简洁 准确 ， 通 过 阅读 它 你 可 以 快速 上 手 进 行 基础 开发 。 如 有 你 用 Python 开发 Web 
应 用 的 经 验 有 限 ,或 者 没有 经 验 ， 那 最 好 在 学 习 本 革 前 先 学 习 一 些 基 本 的 Python Web 开发 课程 。 
如 果 你 很 熟悉 Python Web 开发 ， 还 是 建议 你 快速 浏览 一 下 入 门 教程 ， 以 确保 了 解 哪些 工具 和 方 
法 能 用 ,哪儿 需要 使 用 其 他 策略 。 




















如 果 你 完全 是 新 人 , 没有 Python 编程 经 验 , 建议 阅读 Mark Pilgrim 的 Dive 
into Python 一 书 来 学 习 语 言 基础 ， 在 线 阅读 可 以 访问 : diveintopython.org。 









接 下 来 几 市 将 深入 了 解数 据 建 模 和 在 GAE 数据 存储 上 对 应 用 程序 数据 进行 增删 改 查 。 为 了 
生动 具体 一 些 ， 我 们 通过 样 例 程序 而 不 是 抽象 概念 来 讲解 相关 内 容 。 


任务 管理 器 : 样 例 程 序 


我 们 来 考虑 一 个 简单 的 任务 管理 程序 , 用 户 可 以 定义 任务 、 跟 踪 状 态 ， 并 标记 完成 状态 。 要 
定义 一 个 任务 ， 用 户 需 要 提供 名 称 和 描述 。 可 以 添加 标签 进行 分 类 ， 可 以 声明 期 望 的 到 期 时 间 。 
一 旦 完成 ， 可 以 记录 结束 时 间 。 任务 属 于 用 户 ， 在 应 用 程序 的 第 1 版 里 , 除了 拥有 者 以 外 ,不 和 
其 他 人 分 至 任务 。 

要 对 任务 进行 建 模 ， 最 好 能 罗列 出 所 有 属性 ,指明 每 个 属性 的 数据 类 型 ,说 明 它 是 必 知 的 还 
是 可 选 的 ， 是 单 值 还 是 多 值 的 。 表 10-1 列 出 了 任务 的 属性 及 其 特征 。 




















表 10-1 
属性 名 数据 类 型 是 否 必须 单 值 或 多 值 
Name String Yes Single 
Description String No Single 
start date Date Yes Single 
due_date Date No Single 
end date Date No Single 
Tags array (list collection) No Multiple 





GAE Python SDK 提供 的 数据 建 模 API 文 持 开发 者 创建 Python 类 型 来 表示 任务 。 表 示 任 务 的 
模型 类 的 最 人 简 形 式 可 以 是 这 样 的 : 

import datetime 

from google.appengine.ext import db 





class Task(db.Model): 
name - db.StringProperty() 
description - db.StringProperty() 
start date - db.DateProperty() 
due date - db.DateProperty() 
end date = db.DateProperty() 
tags - db.StringListProperty() 
taskmanager GAE project 
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如 条 你 用 过 Django ( djangoproject.com/ ) 这 样 的 Web HEZ, 或 者 SQLAlchemy (一 种 流行 的 
Python 数据 库 工 具 , sglalchemy.org/ ) 等 ORM TH, 就 肯定 见 过 类 似 的 数据 建 模 API。GAE Python 
数据 建 模 API 遵循 Python Web 开发 者 熟悉 的 语法 和 语义 。 


ORM， 或 者 对 象 -关系 映射 ， 提 供 了 面 对 对 象 编 程 与 关系 型 数据 库 世 界 之 


间 的 桥梁 。 








表 10-1 中 , name 和 start date 被 声明 为 必需 字段 ， 但 它们 还 没有 纳入 模型 中 。 现在 ， 修 
改 Task 类 加 入 约束 : 


import datetime 
C» from google.appengine.ext import db 


class Task(db.Model): 
name = db.StringProperty(required-True) 
description = db.StringProperty() 
start date = db.DateProperty(required-zTrue) 
due date - db.DateProperty() 
end date = db.DatePropertyvy(] 
tags - db.StringListPropertv() 
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有 很 多 可 用 的 验证 选项 。 例 如 ，required=True 强制 字段 必须 存在 。 参 
SEO ne n etaed 
限制 值 必须 是 给 定 集合 中 的 成 员 。 自 定义 验证 逻辑 可 以 定义 成 函数 作为 参数 值 
传 入 属性 类 的 validator 参数 。 








GAE 采用 Google Bigtable 作为 数据 存储 。Bigtable 是 一 个 有 序 的 、 分 布 式 的 、 稀 瑰 的 、 面 癌 
列 族 的 映射 表 , 它 对 列 族 里 列 的 数量 或 类 型 以 及 存储 在 这 些 列 中 值 的 数据 类 型 几乎 没有 限制 。 此 
外 ，Bigtable 还 支持 高 效 地 存储 稀 玖 数据 集 ， 人 允许 一 个 表 中 两 行 数据 拥有 完全 不 同 的 列 组 合 。 它 
还 允许 相同 列 有 不 同 的 数据 类 型 。 换 句 话说 ， 在 一 个 数据 存储 中 ， 两 个 同类 ( 如 Task) 实体 可 
以 有 不 同 的 属性 集 ， 或 者 两 个 同类 实体 可 以 有 一 个 属性 ( 相同 名 称 ) 包含 不 同类 型 的 数据 。 

数据 建 模 API 在 包容 性 极 强 的 Bigtable 之 上 提供 一 层 结构 ， 并 对 属性 的 数据 类 型 、 值 的 集合 
和 它们 之 间 的 关系 提供 了 应 用 层面 的 限制 。 在 描述 “任务 ”实体 的 例子 中 ， 名 为 Task 的 Python 
类 定义 了 任务 的 数据 模型 。 

GAE 数据 存储 可 以 被 看 作对 象 存 储 ， 其 中 每 个 实体 都 是 一 个 对 象 。 这 意味 着 实体 或 成 员 可 
以 是 Python 类 (例如 Task) 的 实例 。 类 名 Task 是 实体 的 类 型 。 由 键 唯一 标识 实体 ， 使 其 与 数 
据 存 储 中 的 其 他 实体 区 分 开 来 。 键 可 以 是 组 合 的 标识 符 ， 包 含 下 列 元 系 。 

口 继承 路 径 
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口 实体 类 型 

口 实体 ID 或 实体 键 名 

WR BaseTask 类 型 的 实体 是 Task 实体 的 父 实体 , 那么 Task 实体 的 继承 路 径 就 包括 了 对 
BaseTask 类 型 父 实体 的 引用 。Task 本 吴 是 实体 类 型 。Task 类 型 的 实体 包含 ID ， 可 以 被 看 作 
主键 。ID 可 以 是 下 列 任意 一 个 。 

OQ 应 用 程序 提供 的 但， 名 为 key_name ， 为 字符 串 类 型 。 

O 系统 ( 比如 GAE ) 生成 的 唯一 的 数字 ID。 

可 以 创建 和 保存 实体 如 下 : 


task = Task (name = "Design task manager app", 

description - "Design the task management application. 
Create the initial blueprint and the app architecture.", 

start date = datetime.datetime.now().date()) 
task.put() 
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上 面 的 代码 创建 了 一 个 任务 实例 ， 它 通 过 传 值 给 构造 图 数 的 name, description 和 
start date 参数 创建 而 成 。 或 者 也 可 以 先 创建 实例 ,再 分 别 给 每 个 属性 赋值 。 在 初始 化 时 一 定 
要 传人 所 有 必需 属性 的 值 。 非 必需 属性 的 值 可 以 通过 两 种 途径 赋值 : 构造 郴 数 或 属性 。 

前 面 的 例子 没有 给 key. name 属性 赋值 ， 所 以 数据 存储 为 其 创建 了 一 个 唯一 的 数字 ID。 可 
以 这 样 查询 键 : 

my entity key = task.key!{) 

输出 是 类 型 名 后 面 跟着 一 个 数字 值 ， 这 里 类 型 名 是 Task。 此 外 也 可 以 为 实体 先 准备 好 一 个 
键 ， 然 后 在 创建 时 传人 。 比 如 说 想 用 taskl 作为 Task 类 中 某 个 实体 的 键 ， 就 可 以 像 这 样 初始 化 











AM 
任务 实体 : 
another task = Task (key name = "taski", 
name = "Yet another task", 
description = "Yet another task is, as the name says, yet another task.", 


start date = datetime.datetime(2011, 2, 1, 12, 0, 0).date()) 

现在 用 another_task.key() 查 询 会 返回 Task: task1， 里 面包 含 了 刚才 在 创建 时 赋 给 
key name 的 值 。 

在 创建 another task 的 例子 里 ,start_date 赋值 为 2011/02/01。, 这 是 任意 选择 的 一 个 值 ， 
日 的 是 为 了 说 明 它 可 以 接受 任何 有 效 的 日 期 值 。 Python 标准 模块 datetime.datetime 用 来 创 
建 正确 格式 的 日 期 值 。datetime .datetime 模块 默认 使 用 UTC 时 区 创建 和 读 取 日 期 。 可 以 利 
用 模块 的 能 力 来 设置 时 区 和 其 他 属性 。 这 完全 是 标准 的 Python ， 可 以 用 你 习惯 的 Python 方式 来 
操作 日 期 。 

下 面 重 新 回 到 模型 类 , 解释 包含 在 代码 样 例 里 的 一 些 特性 。 此 外 我 还 会 修改 模型 类 来 演示 其 
他 一 些 能 
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10.1.2 ”使 用 Python 进行 基本 的 GAE 效 据 建 模 


虽然 已 经 给 出 了 第 一 个 基本 的 模型 类 , 不 过 更 正式 和 详细 的 解释 还 是 有 些 用 人 处。 在 解释 细 广 
时 ， 还 会 在 已 经 覆 六 的 内 容 上 继续 构建 。 再 看 看 Task 模型 类 


class Taskí(db.Model): 
name = db.StringProperty(required-True) 
description = db.StringProperty() 
start date = db.DatePropertví(required-Truej 
due date - db.DateProperty() 
end date = db.DateProperty() 
tags - db.StringListPropertv() 








taskmanager GAE project 








首先 注意 Task 模型 类 继承 了 db.Model %, Model 类 ( google.appengine.ext.db 模块 中 ) 是 
数据 建 模 API 提供 的 三 个 模型 类 之 一 , 另外 两 个 分 别 是 Expando fll PloyModel. Model 类 是 三 
个 模型 类 里 最 为 严格 和 正式 的 一 个 -Model 定义 了 结构 化 的 数据 模型 ,包含 一 套 明确 定义 的 属性 ， 
每 个 属性 的 数据 类 型 在 设计 时 就 定义 好 。 从 某 些 方面 看 ， 定 义 Model 类 或 继承 目 它 很 像 定 义 传 
统 的 数据 库 结构 。 

Task (是 一 个 Model 2$) 定义 了 六 个 属性 ， 每 个 都 有 明确 的 类 型 ， 类 型 用 Property 类 的 
子 类 来 定义 。Python &J s ( SDK 和 API ) 定义 并 文 持 一 组 属性 的 数据 类 型 。 对 应 有 一 组 类 用 来 
帮助 定义 数据 模型 中 的 属性 。 每 个 Property 类 为 属性 值 定 义 一 种 数据 类 型 , 同时 它 还 定义 了 如 
何 验 证 和 保存 数据 。 例 如 , stringProperty 类 代表 所 有 Python 中 最 多 不 超过 500 个 字符 的 str 
或 unicode 值 类 型 。DataProperty 作为 DateTimeProperty 的 子 类 ， 只 代表 日 期 和 时 间 信 
中 的 日 期 部 分 。StringListProperty 代表 字符 串 值 的 列表 。 

GAE Python API 的 在 线 文档 中 有 一 节 里 包括 所 有 支持 的 值 类 型 。 这 一 节 的 标题 是 “属性 和 值 
类 型 ”( Properties and Values )。 在 线 文档 请 访问 http://code.google.com/appengine/docs/python/ 
datastore/entities.html#Properties and Value Types。 访 问 http://code.google.com/appengine/docs/python/ 
datastore/typesandpropertyclasses.html 可 获取 对 应 的 类 型 和 属性 类 的 列表 。 表 10-2 上 总结 了 最 常见 
的 文 持 类 型 和 对 应 的 类 。 




















4410-2. GAE Python API 中 的 属性 类 型 和 对 应 的 类 


值 类 型 属 性 类 HF F & 注 GAE API 定 义 数 据 类 型 
str, unicode StringProperty Unicode 小 于 500 个 字符 ， f 
str 按 ASCII 处 理 
db.Text TextProperty 不 可 排序 ÉECENHO OKT 是 
500 字 符 ) 
db.ByteString ByteStringProperty 字 方 序 最 大 500 字 市 ， 是 


Db.ByteString 扩 
展 str, 表示 未 编码 
的 byte 串 


灵 社 区 会 员 DanyLee HF 尊重 版 权 


166 第 10 章 使 用 云 中 的 NoSQL 


( 续 ) 
值 类 型 属 性 类 排 序 备 注 GAE API 定 义 数 据 类 型 
db.Blob BlobProperty 不 可 排序 最 大 1MB 是 
Bool BooleanProperty False < True ff 
int, long(64 bit) IntegerProperty 数字 顺序 ff 
Float FloatProperty 数字 顺序 float 和 int 同 时 存 fü 
在 时 ，int < float, 
意味 着 5 < 4.5 
datetime.datetime DateTimeProperty 时 间 顺 序 ff 
DateProperty 
TimeProperty 
文 持 类 型 的 list ListProperty 升序 升序 按 最 小 元 素 T 
StringListProperty Hrs 降序 按 最 大 元 
素 排 
Null Python 里 的 None 





“No” 表 明 对 应 的 数据 类 型 在 GAE Python API 里 没有 定义 , 但 是 在 Python 
语言 及 其 标准 库 里 有 定义 。 






除了 表 10-2 中 列 出 的 常见 数据 类 型 外 ，GAE Python API 还 支持 一 些 类 型 ， 用 来 定义 实体 键 ， 
表示 Google 账户 及 典型 的 通信 标识 符 ， 包 括 电 子 邮件 地 址 、 即 时 通信 、 邮 政 地 址 和 电话 号 码 。 
GAE Python API 还 定义 了 表示 地 理 位 置 、 标 签 或 评分 值 的 类 。 数 据 存 储 里 的 键 用 
google.appengine.ext.db 模块 中 的 key 类 表示 。 其 他 文 持 类 型 如 下 。 

Q Google 账号 : users.User 

口 电子 邮件 : db.Email 

口 即时 通信 : ab.IM (即时 通信 ID ) 

口 邮政 地 址 : db.PostalAddress 

口 电话 号 码 : db.PhoneNumber 

口 分 类 : db.Category 

O 链接 : db.Link 

口 评分 : db.Rating 

口 地 理 位 置 : db.GeoPt 

尽管 有 了 Model 和 其 他 文 持 类 型 的 帮助 ， 可 以 准确 地 定义 需要 的 数据 架构 ， 但 有 时 有 灵活 性 
对 模型 也 很 重要 。 你 可 能 还 记得 ， 底 层 数据 存储 没有 任何 架构 或 者 数据 类 型 的 形式 限制 。 换 名 
话说 ， 人 允许 按 需 添 加 属性 ， 同 类 两 个 实体 的 属性 集 可 以 有 所 变化 。 此 外 ， 两 个 实体 也 可 以 选择 
在 同一 属性 中 保存 不 同 数据 类 型 。 为 了 表达 如 此 动态 和 灵活 的 架构 ，GAE Python API E X TH 
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AI 2s Expandos 





Google App Engine 还 提供 了 一 个 Blobstore。 和 数据 存储 不 同 ，Blobstore 
服务 支持 存储 对 数据 存储 而 言 太 大 的 对 象 。Blobstore 里 的 大 对 象 使 用 
blobstore.BlobKey 来 标识 。BlobKey 可 以 按 字 节 排 序 。 







1. Expando 
属性 可 以 是 下 面 两 种 : 
Q 固定 属性 
Q 动态 属性 











定义 在 模型 类 里 的 属性 是 固定 属性 。 添 加 到 模型 实例 上 的 属性 算是 动态 属性 。 






一 个 模型 实例 ， 而 非 类 ， 持 久 化 为 一 个 实例 。 





继承 日 Expando 的 模型 类 的 实例 可 以 同时 拥有 固定 的 和 动态 的 属性 。 这 使 得 两 个 实例 CIR 
存 为 实体 ) 的 同一 属性 可 以 有 不 同 的 数据 类 型 。 它 也 使 同一 个 属性 (例如 new attribute), 一 
个 实例 添加 而 为 一 个 实例 不 添加 成 为 可 能 。 实 例 可 以 包含 一 个 新 属性 但 不 设置 它 。 我 重 构 了 Task 
模型 类 使 它 继 承 自 Expando。 新 Task 及 其 实例 的 代码 如 下 : 


import datetime 
from google.appengine.ext import db 10 — 


class Taskí(db.Expando): 
name = db.StringProperty(required-True) 
description - db.StringProperty() 
start date = db.DateProperty(required-True) 
due date - db.DateProperty() 
end date = db.DatePropertyvy() 
tags - db.StringListProperty() 








tl = Taskíname-"taskl", start date-datetime.datetime.nowí().date()] 


tl.description - "this is task 1" 

tl.tags - ["important", "sample"] 

tl.collaborator = "John Doe" 

t2 = Taskí(name-"task2", start date-datetime.datetime.nowí().date()j 
t2.description = "this is task 2" 

t2.tags - ["important", "sample"] 

t2.resources = ["resourcel", "resourceZ2"] 
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这 个 例子 不 言 自明 ， 展 示 了 灵活 的 Expando 模型 的 力量 。 不 过 灵活 性 是 有 代价 的 。 动 态 属 
性 不 会 像 固定 属性 那样 得 到 验证 。 建 模 API 提供 了 另外 一 个 模型 类 的 变种 ,来 支持 定义 多 态 行为 。 

2. PolyModel 

PloyModel 类 ( 在 google.appengine.ext.db.polymodel 模块 中 ) 支持 定义 模型 类 之 
间 的 继承 层次 结构 。 通 过 类 继承 建立 好 了 层次 结构 ,就 可 以 查询 一 个 类 ,并 在 结 采 集 里 得 到 符合 
条 件 的 类 及 其 子 类 。 为 了 说 明 这 一 点 , 再 次 修改 Task 类 。 我 们 重 构 Task 类 继承 目 PolyModel 
2s, 然后 再 创建 两 个 Task 类 的 子 类 。 F IndividualTask 和 TeamTask 分 别 代 表 个 人 所 有 
者 的 任务 和 团队 的 任务 。 样 例 代码 如 下 : 


from google.appengine.ext import db 
from google.appengine.ext.db import polymodel 

















class Taskí(polymodel.PolyModel): 
name = db.StringProperty(required-True) 


description = db.StringProperty() 

start date = db.DatePropertv(required-True) 
due date = db.DatePropertyí(] 

end date = db.DatePropertyvy(] 

tags - db.StringListPropertv() 


class IndividualTask(Task): 
owner = db.StringProperty() 


class TeamTask(Task): 
team name - db.StringProperty() 
collaborators = db.StringListProperty() 
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现在 如 果 查 询 Task 实体 ， 结 果 集 里 除了 Task 实体 外 ， 还 会 包括 IndividualTask 和 
TeamTask 实体 。 理解 App Engine 的 查询 机 制 会 帮助 你 更 好 地 理解 这 个 行为 。 下 面 我 们 来 介绍 查 
TRIER | s 


10.1.3 ”查询 与 索引 


App Engine 提供 了 类 SQL 的 查询 语言 , 称 作 GQL。 尽管 并 不 完全 具备 SQL 的 能 力 , 但 GQL 
的 语法 语义 还 是 非常 贴近 我 们 习惯 使 用 的 SQL 的 。GQL 可 以 用 来 查询 实体 及 其 属性 。 实 体 表现 
为 GAE Python 和 Java SDK 里 的 对 象 。 因 此 GQL 非常 类 似 于 面 对 对 象 查询 语言 ， 能 用 来 查询 、 
过 滤 和 获取 模型 实例 及 其 属性 。Java 持久 化 查询 语言 (Java Persistence Query Language, JPQL, 
参见 http://download.oracle.com/javaee/5/tutorial/doc/bnbtg.html ) 是 流行 的 面 对 对 象 查 询 语 言 的 一 
Ms 

要 获取 五 个 start_time 为 2011 年 1 月 1 日 的 Task 实体 ， 并 列 出 它们 的 名 字 ， 可 以 查询 
如 下 : 
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q = db.GqlQuery ("SELECT * FROM Task" + 
"WHERE start date = :1", datetime.datetime(2011, 1, 1, 12, 0, 
0).date()) 
results - q.fetch(5) 
for task in results: 
print "Task name: £s" % (task.name) 


taskmanager GAE project 


或 者 ， 可 以 使 用 Query 接口 查询 到 同样 的 结 


q = Task.all() 
q.filter("start date =", datetime.datetime(2011, 1, 1, 12, 0, O0).date()) 
results - q.fetch(5) 
for task in results: 
print "Task name: %s" % (task.name) 
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第 一 个 选择 是 使 用 GglQuery 接口 ， 第 二 个 是 使 用 Query 接口 。 两 种 情况 中 ， 都 声明 了 过 
滤 条 件 来 缩小 结果 集 , 只 包含 那些 start aate 属性 匹配 指定 日 期 的 实体 ,这 和 在 SQL 的 where 
子 句 里 添加 条 件 类 似 。 前 面 的 例子 里 ，2011 年 1 月 1 日 中 午 12 点 被 用 来 作为 参数 。 时 间 部 分 可 
以 是 任何 其 他 值 ， 比 如 上 午 10 点 或 者 晚上 8 点 ， 参 数 有 效 的 部 分 都 一 样 ， 用 到 的 只 有 参数 的 日 
期 部 分 。 

App Engine 文 持 非 常 丰富 的 过 滤 条 件 ， 这 些 会 在 下 一 节 里 介绍 。 

前 面 例子 的 结果 是 用 fetch 方法 获取 的 ,方法 fetch 接受 limit 参数 来 限制 结 末 集 。 此 外 ， 
fetch 方法 还 支持 可 选 参 数 offset, 因此 ， 在 例子 里 可 以 用 fetch(limit-5, offset-10) 
fV fetch(5) 返 回 第 11 到 第 15 条 记录 , MIER 5 条 记录 。 这 上 自然 把 我 们 之 到 了 顺序 的 概念 上 ， 
一 个 显而易见 的 问题 就 是 :“ 结 采集 里 实体 的 顺序 是 什么 ? ”因为 没有 显 式 声明 任何 排序 条 件 ， 
所 以 绪 采 集 的 顺序 不 是 确定 的 ,而 且 在 不 同 查询 间 会 发 生变 化 。 为 了 确保 特定 的 顺序 ,可 以 在 查 
询 里 添加 排序 。 例 如 可 以 按 name 对 结果 集 排序 如 下 : 


q = db.GqlQuery ("SELECT * FROM Task" + 
"WHERE start_date = :1" + 
"ORDER BY name", datetime.datetime(2011, 1, 1, 12, 0, 0).date()j 
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你 可 能 还 记得 Bigtable 存储 行 记录 是 有 序 的 。 因此 , 查找 特定 行 记录 并 不 涉及 随机 读 。 相反 ， 
行 键 可 以 被 用 来 定位 保存 行 数据 (或 实体 ) 的 region sever, 行 数据 可 以 被 顺序 读 取 。 使 用 实体 的 
一 个 属性 来 过 小 集合 时 ,会 查找 对 应 的 索引 ,索引 中 记录 按照 期 望 的 顺序 被 保存 成 行 。 如 果 一 个 
查询 按 start date 属性 过 滤 ， 按 name 属性 排序 访问 Task 实体 ， 它 就 会 用 到 这 样 一 个 索引 ， 
其 中 数据 按 预先 排 好 的 顺序 保存 ， 先 按 start_date 再 按 name。 事 实 上， 每 个 有 效 的 查询 都 是 
在 底层 索引 的 带 助 下 完成 的 。 换 句 话 说 ， 如 果 没 有 对 应 的 索引 ,任何 查询 都 不 能 执行 。 有 些 查 询 
看 起 来 不 同 , 但 是 会 使 用 同一 个 索引 。App Engine 会 创建 一 些 隐 式 的 索引 ,特别 是 那些 会 涉及 用 
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相等 操作 符 对 属性 值 、 键 或 祖先 进行 过 滤 的 字段 。 对 那些 按 多 个 字段 过 滤 , 或 者 涉及 不 相等 比较 ， 
或 者 要 按 多 个 属性 进行 排序 的 查询 ,需要 明确 地 定义 索引 。 开 发 服务 表 会 带 助 你 找 出 需要 的 索引 ， 
并 在 执行 相应 查询 时 创建 索引 。 索 引 显 式 定 义 在 index.yaml 配置 文件 中 。 

P 面 解释 所 文 持 的 过 滤 操 作 。 


10.1.4 ”过滤 和 结果 排序 


应 用 服务 引擎 支持 在 属性 值 上 使 用 下 列 操作 符 : 

g = 

D> 

EJ: >= 

U < 

Q 

QD! 

DIN 

为 了 匹配 一 个 不 等 式 过 小 副 ， 索 引 被 扫描 以 找 出 第 一 个 匹配 行 ， 从 那 开 始 连 续 返 回 行 记录 ， 
直到 有 一 行 不 匹配 为 止 。 ERIE, 所 有 行 部 是 按 过 滤 属 性 排序 的 。 可 以 在 单个 属性 上 使 用 多 个 
不 定式 , 但 是 不 能 在 一 个 查询 中 使 用 多 个 属性 定义 多 个 不 等 式 。 单个 属性 上 的 多 个 不 等 式 会 被 分 
成 多 个 查询 ,结果 集会 在 返回 前 被 合并 起 来 。 因 此 下 面 这 个 查询 : 

SELECT * FROM Task WHERE start date >= :a specified date 

AND start date «- :another specified date 


会 分 为 两 部 分 执行 ,其 中 一 部 分 匹配 所 有 start date KT SET a specified date 的 行 ， 
而 另 一 部 分 匹配 所 有 start date 小 于 等 于 another_specified_date 的 行 。 最 后 ， 两 个 查 
询 的 结果 会 合并 到 一 起 。 

对 包含 不 等 式 的 查询 排序 时 , 必须 首先 按 不 等 式 中 的 属性 排序 。 还 可 以 瀛 加 其 他 排序 用 的 属 
性 ， 但 都 要 在 不 等 式 使 用 的 属性 之 后 。 

同一 个 查询 里 ,在 使 用 一 个 不 等 式 过 滤 的 同时 ， 还 可 以 在 多 个 属性 上 使 用 多 个 等 式 过 滤 。 年 
X ORDER BY 条 件 时 ， 首 先 还 是 要 按 不 等 式 使 用 的 属性 排序 。 

GAE 支持 属性 包含 一 组 值 ， 它 还 允许 两 个 实体 的 同一 属性 包含 不 同 的 数据 类 型 。IN 操作 符 
用 在 列表 属性 上 , 测试 是 否 为 成 员 。 只 要 实体 的 列表 中 有 一 个 元 素 满足 过 滤 条 件 , 它 就 会 被 返回 。 
例如 , a_prop = [1,，2] 同 时 匹配 a prop =1 和 a_prop = 2。 但 是 如 果 查 询 声 明 条 件 是 a prop 
> 14la prop < 2, a prop = [1，2] 就 不 会 匹配 ， 因 为 尽管 每 个 条 件 都 有 一 个 元 了 系 匹配 ， 
但 是 没有 元 系 同时 匹配 两 个 条 件 。 多 值 属性 ( 也 就 是 那些 包含 列表 值 的 属性 ) 列表 中 的 每 个 值 都 
会 被 添加 到 索引 中 。 这 一 点 ， 除 了 前 面 提 到 的 匹配 行 外 ,在 排序 时 还 会 引入 其 他 一 些 副 作用 。 多 
值 属 性 在 按 升序 排列 时 会 使 用 列表 中 的 最 小 值 , 按 降 序 排 列 时 会 采用 最 大 值 。 因 此 包含 [1,3, 5, 7] 
的 多 值 属性 按 升序 排列 时 会 被 当 作 1， 而 降序 排列 时 会 被 当 作 7。 而 且 [1, 3,5, 7] 同 时 小 于 和 大 于 
[2, 3, 4, 5, 0]。 
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两 个 实体 的 同一 属性 可 以 包含 不 同 数据 类 型 ,有 些 实体 甚至 可 以 不 包含 属性 。 在 按 某 一 属性 
查询 过 小 时 , 没有 定义 此 属性 的 实体 会 被 跳 过 。 如 果 硕 望 这 样 的 实体 也 包含 在 结果 中 ,至少 应 该 
设置 实体 的 属性 值 为 null (Ek Python 里 的 None )。 查询 只 会 匹配 那些 与 查询 过 滤 闪 的 数据 类 型 相 
同 的 实体 ， 即 匹配 字符 串 的 查询 只 会 查找 那些 属性 是 字符 串 的 实体 。 在 单个 属性 中 使 用 混合 数据 
类 型 在 排序 时 也 会 市 来 一 些 副 作用 。 数 据 类 型 之 间 是 有 次 序 的 ， 比 如 整数 在 浮 点 数 前 面 。 因 此 ， 
如 末 按 某 个 包含 整数 和 浮 点 数 的 属性 排序 ， 结 灯 可 能 会 很 诡异 ， 因 为 会 出 现 5<4.5 这 样 的 结 

早先 我 提 到 过 每 个 查询 都 需要 索引 。 下 面 是 一 个 查询 及 其 显 式 定 义 的 索引 : 


$ q = db.GqlQuery("SELECT * FROM Task" + 
"WHERE start date >= :1" + 
"tags IN :2" + 
"ORDER BY start date", 
datetime.datetime(2011, 1, 1, 12, 0, 0).date(), ["Important", "Sample"]?! 
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$ indexes: 
- kind: Task 


properties: 
- name: start date 
- name: tags 


index.yaml in taskmanager GAE project 


到 目前 为 止 , 查询 结果 都 是 通过 fetch 方法 来 获取 的 。fetch 方法 文 持 每 次 获取 一 个 集合 ， 
返回 结果 集 的 条 目 数 由 参数 来 定义 。 如 果 只 想 获 取 一 个 实体 ， 可 以 用 get 方法 获取 按 顺序 排 的 
第 一 个 实体 。 如 果 只 需要 知道 结果 的 总 数 ， 可 以 用 count 方法 。 除 非 超时 ， 和 否则 count 方法 会 
返回 结果 中 所 有 实体 的 总 数 。App Engine 更 适用 于 能 快速 返回 的 啊 应 ， 因 为 这 样 易 于 扩展 。 任何 
超过 30 秒 的 啊 应 都 会 超时 。 

如 采 需 要 通 历 整 个 结果 集 ， 就 需要 把 Query 接口 当 作 可 迭代 的 对 象 。 下 面 是 一 个 例子 : 





























q = db.GqlQuery("SELECT * FROM Task" + 
32 "WHERE start date = :1" + 
"ORDER BY name", datetime.datetime(2011, 1, 1, 12, 0, 0).date()j 
for task in q: 
print "Task name: $s" 3% (task.name) 
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P RIRAL RIR ERR, ELBSOSETEPUH HRS BAAR AR LRN S SET 
末 集 ， 但 是 它 不 文 持 回 调 ， 也 不 文 持 从 上 次 获取 的 位 置 再 继续 获取 数据 。 对 于 这 样 的 增 量 获取 ， 
游标 就 派 上 用 场 了 。 

获取 后 可 以 用 查询 对 和 象 的 cursor 方法 得 到 游标 。 游 标 是 base64 编码 的 数据 指针 ， 文 持 增 
量 获 取 数 据 结果 。 只 要 过 滤 条 件 、 排 序 规则 和 祖先 一 样 , 两 次 增 量 获取 结果 的 查询 应 该 是 一 样 的 。 
执行 查询 前 ,要 先 把 游标 传递 给 查询 对 象 的 with_cursor 方法 。 已 经 获取 过 数据 的 任何 修改 都 
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啊 洲 标 ， 洲 标 之 前 范围 里 的 所 有 更 新 或 插 人 会 午 也 被 忽略 。 


为 了 方便 保持 数据 状态 一 致 ，App Engine 文 持 实体 和 实体 组 级 别 的 事务 。 事 务 完整 性 意味 着 








更 新 和 删除 操作 ) 都 是 原子 的 。 


一 个 实体 和 它 的 祖先 以 及 所 有 子 实 体形 成 一 个 实体 组 。 操 作 整 个 组 内 实体 的 图 数 可 以 包含 在 
一 个 事务 里 。 只 要 把 函数 作为 参数 传 给 ab .run_in_transaction 方法 ， 它 就 可 以 显 式 地 作为 
一 个 事务 单元 执行 。 代 码 清 单 10-1 展示 了 一 个 例子 。 


* 代码 清单 10-1 任务 管理 入 GAE MH 


import datetime 
from google.appengine.ext import db 


class Task(db.Model): 
name = db.StringProperty(required-True) 
description = db.StringProperty() 
Start date - db.DateProperty(required-True) 
due date db.DatePropertyv() 
end date db.DateProperty() 
tags - db.StringListProperty() 


status = db.StringProperty(choices-('in progress', 'complete', 'not started')j 
def update as complete(key, status): 
obj = db.get (key) 
if status -- 'complete': 
obj.status - 'complete' 
obj.end date = datetime.datetime.now().daví) 
obj.put() 
q = db.GglQuerv("SELECT * FROM Task" + 
"WHERE name = :1", "taskl") 
completed task = q.get() 
db.run in transaction(update as complete, completed task.key(), "complete") 
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App Engine 并 不 对 行 记 录 加 锁 ， 而 是 基于 最 后 一 次 更 新 的 时 间 通 过 乐观 锁 和 协调 来 解决 冲 











。 它 不 文 持 在 单个 事务 内 操作 多 个 根 实 体 。 


浏览 过 App Engine 及 其 Python SDK 的 大 部 分 基本 特性 后 , 现在 让 我 们 来 了 解 一 下 Java SDK 
的 特性 。 


10.1.5 Java App Engine SDK 


上 手 前 , 请 先 阅 读 在 线 入 门 教程 , 地 址 是 http://code.google.com/appengine/docs/java/gettingstarted/。 
用 Java 编写 的 运行 在 App Engine 上 的 Web 应 用 用 到 了 Java 标 准 , 例如 Java Servlet。App Engine 运行 
时 上 运行 有 Java 应 用 程序 服务 絮 。 容 右 本 里 是 Webtide Jetty 应 用 程序 服务 硕 的 定制 版 。 
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无 论 用 Python 还 是 Java Uil], App Engine 的 基础 都 不 会 变 ， 所 以 再 重复 前 面 的 内 容 没 什么 
意思 。 所 以 这 一 方 直接 展示 如 何 使 用 Java 标 准 ( 比如 JDO 和 JPA ) 来 访问 数据 存储 。 

App Engine 开源 插件 DataNucleus ( www.datanucleus.org/ ) 填补 了 Java 标 准 持 久 化 框架 (Jè 
其 是 JDO 和 JPA ) 和 基于 Google Bigtable 的 数据 存储 之 间 的 空白 。 

JDO 的 设置 及 配置 可 以 参照 在 线 文 档 http://code.google.com/appengine/docs/java/datastore/jdo/。 
JPA 配置 参见 http:/code.google.conyappengine/docs/java/datastore/jpa/。 

Python 例子 里 的 Task 类 可 以 改 成 一 个 JDO 感知 的 简单 Java 对 象 : 


package taskmanager; 





mport com.google.appengine.api.datastore.Key; 
mport java.util.Date; 
javax.jdo.annotations.IdGeneratorStrategy; 
mport javax.jdo.annotations.PersistenceCapable; 
mrport javax.jdo.annotations.Persistent; 


€ 


mport javax.jdo.annotations.PrimaryKey; 


- 


H- mp: rn zi H- Hr 
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QPersistenceCapable 

public class Task { 
QPrimaryKey 
aPersistentí(valueStrategy = IdGeneratorStrategy.IDENTITY) 
private Key key; 


QPersistent 
private String name; 


QPersistent 
private String description; 





aPersistent 
private Date startDate; 


QPersistent 
private String status; 


public Greeting(String name, String description, Date startDate, 
String status) { 
this.name - name; 
this.description = description; 
this.startDate - startDate; 
this.status = status; 


} 


public Key getKey() ( 
return key; 


) 


public User getName() { 
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return name; 


public String getDescription() { 
return description; 


public Date getStartDate(í() ( 
return startDate; 


public String getstatus() { 
return status; 


public void setName (String name) { 
this.name = name; 


) 


public void setDescription(String description) { 
this.description = description; 


public void setStartDate(Date startDate) { 
this.startDate = startDate; 


public void setStatus (String status) ( 
this.status - status; 


jtaskmanager GAE project 


PersistenceManager 类 用 于 处 理 实体 的 持久 化 。 需要 通过 PersistenceManagerFactory 


获取 PersistenceManager 实例 ， 像 这 样 : 


package taskmanager; 


import javax.jdo.JDOHelper; 
import javax.jdo.PersistenceManagerFactory; 


public final class PMF { 
private static final PersistenceManagerFactory pmflnstance = 


JDOHelper.getPersistenceManagerFactory("transactions-optional"); 
private PMF() () 


public static PersistenceManagerFactory get() { 
return pmfInstance; 
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最 后 ， 可 以 保存 对 象 如 下 : 


String name = "taski"; 

String description = "a task"; 
Date startDate = new Date(í); 
String status - "task created"; 


Task task = new Taskí(name, description, startDate, status); 
PersistenceManager pm = PMF.get(J).getPersistenceManager(); 
try 1 

pm.makePersistent(task); 

) finally ( 

pm.close(í); 


j 


接 下 来 可 以 用 类 似 GQL 的 JDO 查询 语言 (JDO Query Language, JDOQL ) 查询 所 有 任务 : 


PersistenceManager pm = PMF.getí().getPersistenceManager(); 
String query = "select from " + Task.class.getName(); 
List«Task» tasks = (List«Task») pm.newQuery(query).execute(); 
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使 用 JDO 和 JPA( 没有 在 本 章 中 说 明 ) 填 补 了 典型 的 对 象 为 中 心 的 应 用 程序 开发 和 可 扩展 的 
有 序列 族 存储 ( 例如 GAE 的 数据 存储 ) 之 间 的 空 日 。 它 能 帮助 开发 者 利用 App Engine 的 可 扩展 
环境 ,而 无 需 学 习 全 新 的 数据 库 技 术 。 但 是 要 注意 ,JDO 和 JPA 标 准 中 只 有 部 分 适用 于 App Engine, 

所 有 与 查询 有 关 的 解释 ( 包括 这 些 查 询 的 行为 及 局 限 性 ) 对 Python 和 Java SDK 都 是 一 样 的 。 
索引 、 事 务 及 相关 概念 也 是 一 样 的 。 

下 面 我 们 来 介绍 Amazon SimpleDB。 





10.2 Amazon SimpleDB 


前 一 他 里 我 们 看 到 GAE 数据 存储 提供 了 一 个 完全 托管 的 数据 库 供 开 发 者 使 用 。 管 理 大 型 可 
扩展 数据 库 的 复杂 性 和 负担 完全 被 抽象 择 了 。 你 无 需 关 心 数 据 库 管 理 、 数 据 库 索引 管理 或 性 能 调 
优 。 对 于 数据 存储 ， 你 所 要 做 的 就 是 专注 在 应 用 程序 和 数据 的 逻辑 上 。 

Amazon SimpleDB 是 GAE 数据 存储 之 外 另 一 个 即刻 可 用 的 数据 库 。 它 有 弹性 ， 而 且 完 全 托 
管 在 云 中 。GAE 数据 存储 和 SimpleDB 的 API 及 内 部 结构 千差万别 , 但 是 二 者 都 提供 了 高 可 扩展 
和 按 需 增长 的 数据 存储 模型 。 


















Amazon EC2 database AMI 允许 你 在 AWS 云 上 使 用 自己 喜欢 的 数据 库 
(Oracle, MySQL, PostgreSQL, DB2 或 任何 其 他 数据 库 ), 但 是 管理 的 负担 也 
是 你 自己 的 。 





图 灵 社 区 会 员 DanyLee 专 享 尊重 版 权 





176 第 10 章 使 用 云 中 的 NoSQL 


10.2.1 SimpleDB 入 门 


Amazon SimpleDB 是 Amazon Web Service ( AWS ) 的 一 部 分 。 入 门 非 稼 简单， 就 是 在 
http://aws.amazon.com/sdb 上 创建 一 个 SimpleDB 账 号 .访问 AWS 需 要 两 组 凭证 :access key 和 secret 
key。 登 录 目 己 的 http://aws.amazon.com/page 页 面 后 ， 可 以 从 账 豆 详情 页 上 得 到 这 些 任 证 。AWS 
注册 与 访问 的 细节 内 容 没有 包含 在 本 章 及 本 书 中 ， 不 过 按照 AWS 主页 (http:/aws.amazon.comy ) 
的 说 明 进 行 应 该 很 容易 进行 。 

SimpleDB 的 设计 非常 简单 。 它 规定 了 一 些 限制 ， 同 时 提供 了 非常 简单 的 API 与 数据 交互 。 
SimpleDB 中 最 高 层次 的 概念 是 账户 。 可 以 把 它 看 作 传统 RDBMS 里 的 一 个 数据 库 实例 ， 或 者 是 
包含 一 系列 不 同 工 作 短 的 Microsoft Excel 文档 。 

每 个 账号 可 以 有 一 个 或 多 个 域 , 每 个 域 是 一 个 集合 。 一 个 SimpleDB 域 (一 个 集合 ) 默认 
最 多 容纳 10GB 数据 ， 每 个 账号 最 多 可 以 有 100 个 域 。 这 不 是 最 大 值 ， 只 是 默认 值 。 如 果 需 要 
的 话 ， 可 以 联系 Amazon 要 求 提供 更 高 容量 。 默 认可 以 设置 1TB 数据 集 。 这 已 经 不 小 了 ! 此 
外 ， 巧 妙 地 组 合 SimpleDB 和 Amazon 简单 存储 服务 ( Amazon Simple Storage Service, S3) 
可 以 帮助 优化 存储 。 大 对 象 存储 到 S3 里 ， 小 对 象 和 大 对 象 的 元 数据 存储 到 SimpleDB 里 ， 这 
样 会 很 管用 。 

在 域 里 可 以 持久 化 条 目 。 条 目 可 以 是 任意 类 型 ， 只 要 它们 能 定义 成 属性 - 值 对 就 行 。 因 此 集 
合 中 的 每 个 条 目 都 是 一 个 属性 - 值 对 。 同一 个 域 里 的 两 个 条 目 无 需 有 相同 的 属性 - 值 对 。 极端 情况 
下 ， 即 使 两 个 条 目 没 有 任何 共同 属性 ， 也 可 以 保存 在 同一 个 域 里 。 这 种 极端 例子 从 SimpleDB 的 
角度 来 看 可 能 没有 任何 实际 用 途 ， 但 确实 是 允许 的 。 

前 面 提 到 文档 数据 库 也 有 类 似 的 特点 。CouchDB 和 MongoDB 提供 了 近似 的 日 由 度 和 能 
SimpleDB 可 以 看 作 云 中 的 文档 数据 库 , 能 够 按 需 扩展 。 在 SimpleDB 里 存储 下 面 的 日 志 数 据 格 式 
(来 目 第 3 和 草 ) 很 容易 ， 而 且 很 合适 : 

( 






































"ApacheLogRecord": { 
IBD": "127.0.0.1", 
"ident" : "-", 
"http user" s "frank"; 
"time" : "10/0ct/2000:13:55:36 -0700", 
"request line" : { 
"http method" : "GET", 
"url" : "/apache pb.gif", 
"Http vers" s "HTTP/1.0", 


"http response code" : "200", 
"http response size" : "2326", 
"referrer" ; "http://www.example.com/start.html", 
"user agent" : "Mozilla/4.08 [en] (Win98; I ;Nav)", 
Jy 
} 


这 个 例子 是 一 个 JSON 文档 。 文档 里 的 每 个 键 / 值 对 正好 对 应 SimpleDB 里 的 一 个 属性 - 值 对 。 
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上 面 例子 的 JSON 格式 只 是 用 来 演示 键 / 值 对 。SimpleDB 本 身 并 不 能 理解 
JSON 格式 或 查询 JSON 文档 。JSON 文档 必须 被 解析 ， 并 从 中 提取 出 键 / 值 对 
才能 存储 进 SimpleDB。 


和 大 多 数 AWS 功能 一 样 ，SimpleDB 提供 了 简单 的 API 来 操纵 域 、 条 目 和 条 目的 属性 - 值 对 。 
API 以 Web 服务 方式 提供 ,同时 支持 REST 和 SOAP 两 种 风格 。 客 户 端 发 送 请 求 来 执行 特定 的 操 
作 ， 例 如 创建 域 、 插 入 条 目 或 者 更 新 属性 - 值 对 。SimpleDB 服务 顺 完 成 操作 ， 如 果 不 出 现 错误 ， 
就 会 返回 成 功 信息 和 应 答 数据 。 返 回 的 应 答 数 据 是 一 个 HTTP WR, 包含 头 部 信息 、 元 数据 和 一 
些 XML 格式 的 内 容 。 

下 面 列 出 SimpleDB API 中 可 用 的 命令 。 我 们 首先 来 看 有 助 于 操作 域 的 命令 。 

SimpleDB 域 管理 命令 如 下 。 

O CreateDomain: 创建 一 个 域 来 存储 条 目 。 

口 DeleteDomain: 删除 已 有 域 。 

O ListDomain: 列 出 账号 下 的 所 有 域 。 

O DomainMetadata: 获取 有 关 域 、 域 的 条 目 及 条 目的 属性 - 值 对 的 相关 信息 ， 包 含 域 创建 

时 间 、 域 的 条 目 总 数 和 属性 - 值 对 的 大 小 等 。 

创建 完 域 以 后 , 可 以 使 用 PutAttributes 方法 搬入 或 更 新 条 目 。 条 目 是 属性 - 值 的 集合 。 
插 和 人 条 目 意 味 着 创建 一 组 属性 - 值 集合 ,它们 逻辑 上 形成 一 个 条 目 。 更 新 一 个 条 目 是 先 获 取 条 
H, 然后 更 新 其 中 一 个 或 多 个 属性 。 用 BatchPutAttributes 能 在 一 次 调用 里 执行 多 个 put 












































DeleteAttributes 用 来 删除 域 的 条 [] .属性 - 值 对 或 是 属性 的 值 ,BatchDeleteAttributes 
文 持 在 一 次 调用 里 执行 多 个 delete 操作 。 

用 GetAttributes 操作 可 以 获取 一 个 条 目的 属性 - 值 对 。 男 外 还 可 以 用 SELECT 操作 来 查 
询 、 过 滤 域 里 的 条 目 。SimpleDB 对 域 数据 支持 丰富 的 过 滤 操 作 , 其 语法 语义 和 SQL 提供 的 相似 。 
SimpleDB 会 自动 创建 和 管理 索引 ， 以 便 提高 查询 效率 。 

虽然 SimpleDB 的 查询 机 制 感觉 很 像 SQL， 但 是 不 要 混 消 SimpleDB 和 RDBMS。 它 不 是 关 
系 型 存储 ， 也 不 像 关系 型 存储 那样 文 持 复杂 事务 ， 或 者 基于 外 键 的 约束 。 














SimpleDB 区 域 
目前 ，AWS 对 四 个 地 区 提供 SimpleDB: 美国 东部 、 美 国 西部 、 欧 洲 和 亚洲 。 在 创建 域 之 
前 要 先 选择 一 个 地 区 。 选择 接近 用 户 的 区 域 能 减少 延迟 、 提 高 性 能 ,不 同 区 域 的 域名 可 以 一 样 ， 
但 它们 其 实 不 同 ， 并 且 相 互 完全 隔离 ， 不 共享 任何 数据 。 
这 四 个 区 域 (及 其 地 理 位 置 ) 如 下 。 
口 sdb.amazonaws.com: 美国 东部 〈 北 弗吉尼亚 州 ) 
口 sdb.us-west-1.amazonaws.com: 美国 西部 ( 北 加 州 ) 


图 灵 社 区 会 员 DanyLee HF 尊重 版 权 





178 第 10 章 使 用 云 中 的 NoSQL 


口 sdb.eu-west-1.amazonaws.com: 欧洲 (爱尔兰) 
口 sdb.ap-southeast: 亚洲 ( 新加坡 ) 


下 面 说 明 访 问 和 使 用 SimpleDB 的 几 种 方式 。 


10.2.2 使 用 REST API 


SimpleDB 最 简单 的 使 用 方式 是 REST API。 人 尽管 从 一 个 纯粹 主义 者 的 角度 看 ，SimpleDB 的 
REST API 并 不 是 彻底 RESTful 的 , 但 它 还 是 提供 了 简单 的 基于 HTTP 的 请 求 - 啊 应 模型 。 建 议 阅 
该 Subbu Allamaraju 题 为 “A RESTful version of Amazon SimpleDB” 的 帖子 (www.subbu.org/ 
weblogs/main/2007/12/arestfulversi.html )， 了 解 为 什么 SimpleDB REST API 不 算 真 正 RESTful。 测 
试 这 个 API 最 简单 的 办 法 是 用 命令 行 客户 端 执行 操作 。 这 一 方 里 使 用 基于 Perl 的 命令 行 客户 端 ， 
名 M amazon-simpledb-cli ， 可 以 从 项 日 主页 下 载 这 个 客户 端 ， 地 址 为 http://code. 
google.com/p/amazon-simpledb-cli/。amazon-simpledb-cli 依赖 于 AWS 的 Perl 模块 。Perl 模块 可 以 
在 这 里 下 载 : http://aws.amazon.com/code/1136。 
























Amazon SimpleDB 还 提供 了 SOAP API。 本 书 不 会 介绍 SOAP API， 读 者 
可 以 访问 在 线 开 发 者 文档 学 习 SOAP API， 地 址 为 http://aws.amazon.com/docu- 
mentation/simpledb/。 






要 安装 amazon-simpledb-cli , 先 确认 安装 了 Perl。 如 果 你 是 POSIX 系统 用 户 ( 包括 各 种 Linux, 
BSD fil Mac OSX )， 那 可 能 Perl 已 经 装 好 了 。 如 果 没 有 ， 需 要 获取 Perl 编译 器 和 解释 句 。Perl 的 
安 猴 说 明 超 出 了 本 书 的 范围 ， 如 果 需 要 帮助 ， 可 以 访问 perl.org。 

开始 之 前 ， 确 认 已 获取 下 列 Perl 模块 : 


L] Getopt::Long 





L] Pod: :Usage 

L] Digest::SHA1 

L] Digest::HMAC 

L] XML::Simple 

L] Bundle::LWP 

L] Crypt::SSLeay 

I DUEE CHE Getopt::Long: 

perl -MCPAN -e 'install Getopt:Long' 

HEFT AKR HAE mA Perl 模块 。 记 得 用 其 他 模块 的 名 字符 换 Getpot : : Longo EA 
些 系统 上 ， 某 些 模块 可 能 需要 以 管理 员 账 号 安 站 。 安 次 和 更 新 完 必需 模块 后 ,可 以 像 下 面 这 样 安 
T€ AWS Perl 模块 。 

(D) 解压 下 载 文件 ，unzip AmazonSimpleDB-*-perllibrary.zip. 
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(2) 获取 Perl sitelib: sitelib-$(perl -MConfig -le ‘print $Config(sitelib)'). 

(3) 复制 Amazon 模块 到 sitelib: 

sudo scp -r AmazonSimpleDB-*-perl-library/src/Amazon $sitelib 

安装 完 AWS Perl 模块 后 ， 获 取 amazon-simpledb-c1li 脚本 如 下 : 

sudo curl -Lo /usr/local/bin/simpledb http://simpledb-cli.notlong.com 

设置 脚本 权限 ， 人 允许 所 有 人 执行 脚本 : 

sudo chmod +x /usr/local/bin/simpledb 

现在 就 准备 好 了 。 接 下 来 , 先 确 认 找 到 了 AWS ENE AWS access key fll AWS access secret key, 
可 以 从 你 的 账号 页 面 上 找到 ), 以 便 测 试 amazon-simpledb-cli 脚本 ( 安装 成 /usr/local/bin 
下 面 的 simpledb )。 

要 使 用 simpbleqpb 脚本 ,需要 把 access key fll secret access key 分 别 作 为 aws-access-key-id 
和 aws-secret-access-key 命令 行 参数 传人 。 此 外 还 可 以 用 saAWS_ACCESS_KEY_ID 和 
$AWS_SECRET_ACCESS_KEY 环境 变量 来 设置 默认 的 access key 和 secret access key。 

像 这 样 创建 一 个 域 . 

simpledb create-domain domaini 

添加 条 目 到 域 里 : 


simpledb put domaini iteml keyl-valueA key2-value2 anotherKey-someValue 
simpledb put domainl item2 keyl-valueB key2-value2 differentKey-aValue 


编辑 iteml 并 回 其 中 添加 另 一 个 属性 - 值 对 : 


simpledb put domaini iteml yetAnotherKey-anotherValue 


PHR EEX : 


simpledb put-replace domainl1 iteml keyl=valuel newKeyl-newValuei 


删除 属性 或 属性 值 ， 例 如 : 


simpledb delete mydomain iteml anotherKey 
simpledb delete mydomain item2 key2-valueZ2 


罗列 所 有 域 : 

simpledb list-domains 

列 出 域 里 的 所 有 条 目 名 : 

simpledb select 'select itemName() from domainl' 

或 者 用 类 SQL 语法 过 滤 条 目 ， 列 出 所 有 匹配 的 条 目 及 其 属性 : 

simpledb select 'select * from domainl where keyl-"'valueA'' 

要 列 出 一 个 特定 条 目 〈 比方 说 itemi) 的 所 有 属性 ， 可 以 像 这 样 使 用 simpledb: 


simpledb get domaini iteml 


如 果 要 限制 输出 特定 一 组 属性 ， 可 以 在 上 一 个 命令 中 传人 属性 名 : 


simpledb get mydomain iteml newKeyl1 key2 
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如 果 想 要 删除 一 个 域 及 其 所 有 组 成 部 分 ， 可 以 运行 simpledb 命令 如 下 : 


simpledb delete-domain domaini 


WEEK 

对 SimpleDB 的 每 个 请 求 都 需要 认证 。 客 户 端 请 求 要 包括 下 列 内 容 : 

L] AWS access key 

口 基于 AWS secret access key 和 请 求生 成 的 HMAC-SHAI 签名 

口 8 r8] 

AWS 根据 传 入 的 AWS access key 访问 对 应 的 secret access key， 然 后 用 secret access key 和 
传 入 的 请 求生 成 一 个 HMAC-SHAI 签名 。 只 有 客户 端 传 入 的 签名 和 服务 器 生成 的 签名 匹配 ， 
才 会 返回 适当 的 响应 ， 否 则 会 抛 出 认证 错误 。 

传 入 的 时 间 蕉 作为 额外 一 层 安 全 防护 。 时 间 鹤 超过 15 分 钟 的 请 求 被 认为 是 过 时 而 不 会 被 
Ab P. 


前 面 的 命令 让 我 们 体会 到 可 以 用 amazon-simpledb-cli 做 什么 ， 还 介绍 了 Amazon 
SimpleDB 中 可 用 的 数据 查询 和 管理 命令 。 

为 了 完整 起 见 ， 下 面 会 稍微 讲解 一 下 在 使 用 REST API 时 的 基本 请 求 和 响应 。 像 下 面 这 样 的 
调用 : 

simpledb put domaini iteml keyl=valueA key2-value2 anotherKey-someValue 

会 被 翻译 成 : 

https://sdb.amazonaws.com/ 

?Action-PutAttributes 

&DomainName-domainl 

&ltemName-iteml 

&Attribute.1l.Name-keyi1 


&Attribute.l.Value-valueA 
&Attribute.2.Name-key2 
2 
3 








&Attribute.2.Value-value2 
&Attribute.3.Name-anotherKey 
&Attribute.3.Value-someValue 
&AWSAccessKeyId-[valid access key id] 
&SignatureVersion-2 
&SignatureMethod-HmacSHA256 
&Timestamp-2011-01-29T15$3A032$3A05-0723A00 
&Version-2009-04-15 

&Signature-[valid signature] 


它 的 啊 应 是 XML 文档， 格式 如 下 : 


«PutAttributesResponse-» 
«ResponseMetadata» 
«RequestId»«/RequestlId» 
«BoxUsage»«/BoxUsage- 
«/ResponseMetadata» 
«/PutAttributesResponse-» 
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Amazon SimpleDB XSD 可 以 在 这 里 找到 : http://sdb.amazonaws.com/doc/2009-04-15/Amazon 
SimpleDB.xsd， 响 应 XML 的 结构 定义 在 这 个 文档 里 。 

以 上 我 们 介绍 了 SimpleDB 的 不 少 特性 ， 接 下 来 介绍 用 Java, Python 和 Ruby 类 库 访问 
SlimpleDB 。 


10.2.3 ”使 用 Java 访 问 SimpleDB 


AWS 为 Java 开 发 者 们 提供 了 全 面 的 SDK 来 编写 应 用 程序 与 AWS 交互 ， 而 且 文 持 做 得 也 不 
销 。AWS SDK for Java 可 以 在 线 获取 ， 地 址 : http:/aws.amazon.com/sdkforjava/。 开 始 可 以 先 阅 读 
SDK 入 门 文档 ， 地 址 : http://aws.amazon.conm/articles/3586, ix^ SDK 支持 很 多 AWS 服务 ,包括 
SimpleDB .下 载 文件 中 还 包含 一 些 入 门 样 例 。 代 码 清单 10-2 是 一 个 展现 SDK 之 应 用 的 基本 例子 。 


$ 代码 清单 10-2 使 用 AWS SDK 5 SimpleDB 交互 的 简单 Java 程序 


import java.util.ArrayList; 

import java.util.List; 

import com.amazonaws.AmazonClientException; 

import com.amazonaws.AmazonServiceException; 

import com.amazonaws.auth.PropertiesCredentials; 

import com.amazonaws.services.simpledb.AmazonSimpleDB; 

import com.amazonaws.services.simpledb.AmazonSimpleDBClient; 
import com.amazonaws.sgervices.simpledb.model.Attribute; 

import com.amazonaws.services.simpledb.model.BatchPutAttributesRequest; 
import com.amazonaws.services.gimpledb.model.CreateDomainRequest; 
import com.amazonaws.services.simpledb.model.Item; 

import com.amazonaws.services.simpledb.model.ReplaceableAttribute; 
import com.amazonaws.services.simpledb.model.ReplaceableIlrtem; 























public class SimpleDBExample { 


public static void main(String[] args) throws Exception { 
AmazonSimpleDB sdb = new AmazonSimpleDBClient(new PropertiesCredentials( 
SimpleDBExample.class.getResourceAsStream("aws credentials.propertieg"))); 


try { 
String aDomain = "domaini"; 
sdb.createDomain(new CreateDomainRequest(aDomain)]); 


// Put data into a domain 
sdb.batchPutAttributes(new BatchPutAttributesRequest (myDomain, 
createSampleDataí))); 
) catch (AmazonServiceException ase) { 


System.out.printin("Error Message: " + ase.getMessage()); 

System.out.printlin("HTTP Status Code: " + ase.getStatusCode()); 

System.out.printin("AWS Error Code: " + asge.getErrorCode()); 

System.out.printin("Error Type: " + asge.getErrorType()); 

System.out.printiní("Request ID: " + ase.getRequestId()); 
) catch (AmazonClientException ace) ( 

System.out.printin("Error Message: " + ace.getMessage()); 
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} 


private static List«Replaceableltem» createSampleData(í) { 
List«ReplaceablelItem» myData = new ArrayList«ReplaceableIltem»(); 


sampleData.add(new Replaceableltem("iteml").withAttributes|( 


new ReplaceableAttribute("key1", "valueA", true), 
new ReplaceableAttribute("key2", "value2", true), 
new ReplaceableAttribute("anotherKey", "someValue", true) 


E 


sampleData.add(new Replaceableltem("item2").withAttributes| 


new ReplaceableAttribute("key1", "valueB", true), 
new ReplaceableAttribute("key2", "value2", true), 
new ReplaceableAttribute("differentKey", "aValue", true) 


E 


return myData; 


SimpleDBExample. java 


代码 清单 10-2 的 例子 假设 在 名 为 aws credentials.properties 的 文件 里 保存 了 AWS 
ftiüb. aws credentials.properties 文件 内 容 如 下 : 


accessKey 
secretKey 


这 个 例子 用 Java 程序 来 演示 API 的 用 法 。 如 果 程 序 更 复杂 ， 就 可 能 会 用 上 标准 Java 组 件 ， 
包括 Java 持久 化 API (JPA )。 可 以 借助 一 些 开源 项 目 来 使 用 JPA 持久 化 数据 到 SimpleDB. 
SimpleJPA 就 是 这 样 一 个 项 目 ， 它 涵盖 了 与 SimpleDB 有 关 的 JPA 子 集 。 














10.2.4 ”通过 Ruby 和 和 Python 使 用 SimpleDB 


Rails 是 Ruby 社区 的 Web 开发 之 选 , 如 果 想 在 Rails 应 用 里 使 用 SimpleDB ,没有 外 界 的 帮助 ， 
肯定 没 法 将 原来 的 关系 型 数据 库 ( 例如 MySQL füj FEN, SimpleDB。 不 过 SimpleRecord 可 
以 解决 这 个 问题 。 可 以 访问 SimpleRecord 同名 开源 项 目 来 获取 源 代码 ， 地 址 : https://github.cony 
appoxy/simple_record/。 想 用 Amazon SimpleDB 作为 持久 化 存储 的 Rails 应 用 ,可 以 用 SimpleRecord 
TX ActiveRecord, 

使 用 SimpleRecord 很 容易 ， 其 安装 也 就 是 一 行 代 人 码 的 事 儿 : 

gem install simple record 

假定 已 经 安装 了 Ruby, RubyGems 和 Rails。 最 简单 的 例子 如 下 : 


require 'simple record' 
class MyModel « SimpleRecord::Base 
has strings :keyl 
has intgs :key2 
end 
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和 前 面 一 样 ， 要 先 配 置 AWS 凭证 以 准备 好 使 用 SimpleDB, fit ét AWS 凭证 如 下 : 


AWS ACCESS KEY ID='<aws access key id»' 
AWS SECRET ACCESS KEY-'«aws secret access key»' 
SimpleRecord.establish connection(AWS ACCESS KEY ID,AWS SECRET ACCESS KEY; 


可 以 存储 实例 了 ， 样 例如 下 : 


m instance - MyModel.new 

m instance.keyl1 = "valueA" 
m instance.key2 - valuel 
m instance.save 


可 以 按 标识 符 获 取 实 例 : 
m instance 2 = MyModel.find(idj 


此 外 ， 还 可 以 找 出 匹配 条 件 的 所 有 实例 ， 像 这 样 : 


all instances = MyModel?.find(:all, ["keyi-z?", "valueA"], 
:order-»"key2", :l1imit-»10) 


上 上面 介 绍 了 如 何在 Rails 应 用 中 使 用 SimnpleDB。 此 外 还 有 一 些 蔡 代 的 类 库 ， 包 括 Amazon fE 
供 的 用 来 连接 Amazon 服务 的 Ruby 语言 接口 。 可 以 从 网 上 下 载 这 个 SimpleDB 的 Ruby 类 库 来 进 
一 步 了 解 ， 地 址 : http://aws.amazon.com/code/Amazon-SimpleDB/3324。 

最 后 我 们 来 介绍 如 何 用 Python 访问 AWS SimpleDB。Boto 是 访问 SimpleDB 的 Pyhon 类 库 中 
最 流行 的 选择 ,可 以 从 http:/code.google.com/p/boto/ 获 取 。 开 始 前 先 从 Github 镜像 下 载 最 新 的 boto 
源 代码 : 

git clone https://github.com/boto/boto.git 

然后 在 克隆 的 版 本 库 目 录 下 运行 python install setup.py KER botos AJr ia a 
Python 命令 行 ， 可 以 很 容易 地 创建 一 个 新 域 ， 然 后 往 里 面 添加 条 目 ， 像 这 样 : 


import boto 

sdb = boto.connect sdb('«your aws access key»', '«your aws secret key'>, 
domain = sdb.create domainí(í('domain2') 

item = domain.new item('iteml') 

item['key1'] 'valuel' 

item['key2'] 'value2' 

item.save() 


除 此 以 外 ，SimpleDB 命令 和 交互 的 方式 与 前 面 见 过 的 其 他 例子 都 保持 一 致 。 








10.3 小结 


本 章 洱 兽 了 两 个 流行 的 、 可 伸缩 的 数据 库 云 服务 ， 资 明了 它们 的 行为 特点 和 特殊 之 处 ， 还 介 
绍 了 怎样 结合 各 种 语言 的 类 库 、 指 南 和 框架 使 用 NoSQL 存储 。 

Google App Engine 数据 存储 和 Amazon SimpleDB 对 数据 库 领 域 而 言 都 是 革命 性 的 ， 它 们 促 
使 每 个 人 重新 思考 他 们 为 管理 数据 库 所 作出 的 各 种 努力 。 对 许多 人 来 说 , 站 在 巨人 的 肩膀 上 实现 
可 扩展 染 构 不 仅 非 党 请 人 ， 而 且 从 成 本 和 灵活 性 的 角度 看 也 是 实用 和 审 剧 的 。 
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Google 和 Amazon 提供 的 产品 是 它们 这 一 类 中 最 广为人知 的 和 健壮 的 。 更 多 云 数 据 库 的 选择 
正在 开始 涌现 。 例 如 ，CouchDB 和 MongoDB 的 弹性 云 数据 库 主机 已 经 诞生 了 。CouchDB 的 创造 
者 推出 的 主机 叫做 CouchOne ( www.couchone.com )。 与 之 相似 , MongoHQ 是 可 伸缩 的 MongoDB 
宿主。 文档 数据 库 也 不 是 唯一 的 可 扩展 托管 选择 。 最 终 一 致 性 键 / 值 数据 库 的 创建 者 Basho 和 
Joyent 一 起 提供 了 Riak 的 3、5 广 点 集群 。 希望 将 来 还 能 见 到 更 多 的 选择 。 

随 看 云 计 算 被 越 来 越 多 地 采纳 , 我 们 很 可 能 会 看 到 很 多 数据 库 云 服 务 。 绝 大 多 数 或 者 至 少 很 
多 云 数 据 库 都 会 用 上 NoSQL 产品 。 这 会 为 许多 开发 者 提供 使 用 NoSQL 的 机 会 , 并 使 得 开发 者 开 
始 把 数据 库 看 作 持 久 化 服务 。 
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MapReduce 可 扩展 开行 处 理 


本 章 内 容 

口 了解 可 扩展 并 行 处 理 的 挑战 

O 利用 MapReduce 进行 大 规模 并 行 处 理 

O 探索 MapReduce 计算 模型 的 概念 和 精妙 之 处 

口 通过 MongoDB 、CouchDB 和 HBase fii Hj MapReduce 
O 介绍 基于 MapReduce WHL- HEZ Mahout 





E 纵 大 量 数据 要 求 使 用 的 方法 和 工具 能 并 行 执 行 ， 而 且 之 间 的 交互 点 要 尽 可 能 少 。 更 少 
ZK 的 交互 点 意味 着 更 少 的 潜在 冲突 和 更 少 的 管理 。 这 样 的 并 行 处 理工 具 同 时 还 要 尽 可 能 

降低 传输 的 数据 量 。 LO 和 带宽 往往 会 成 为 阻碍 快速 高 效 处 理 的 瓶 贷 。 VO 瓶 贷 在 大 数据 量 下 会 变 
得 更 为 凸显 ,， 并且 有 可 能 会 拖 慢 整 个 系统 ， 以 至 于 系统 没 法 再 用 。 因 此 对 大 规模 计算 而 言 ， 保 持 
数据 本 地 计算 就 显得 极其 重要 。 考虑 到 如 此 多 的 方面 , 处 理 多 台 机 各 上 的 大 数据 集 就 显得 既 重 要 
LAHE T o 

多 年 来 ， 形形色色 的 方法 被 开发 出 来 ,用 于 计算 大 数据 集 。 最 初 , 创新 的 重点 在 于 构建 超级 
计算 机 。 超 级 计算 机 就 是 超级 给 力 的 计算 机 ， 有 具备 远 超 正 背 水 平 的 处 理 能 力 。 这 些 机 硕 能 很 好 地 
运行 特别 设计 的 复杂 的 计算 密集 型 算法 , 不 过 离 足 够 好 的 通用 解决 方案 还 差 得 很 远 。 它们 的 建造 
和 维护 成 本 高 昂 ， 对 绝 大 部 分 组 织 来 说 都 遥 不 可 及 。 

网 格 计算 的 出 现 , 为 解决 超级 计算 机 的 难题 市 来 了 新 的 电光。 计算 网 格 的 想法 是 把 工作 分 散 
到 一 系列 市 点 上 进行 , 减少 原来 单 台 机 条 完 成 同一 工作 所 需 的 时 间 。 网 格 计算 的 重点 转移 到 了 消 
息 传 递 接口 (Message Passing Interface, MPI) E, 使 用 MPI 或 其 变种 实现 数据 在 节点 之 间 传 递 ， 
最 终 完 成 计算 密集 型 任务 。 如 果 提 高 CPU 频率 能 加 速 完成 工作 ， 这 种 拓扑 瓯 能 很 好 地 工作 。 但 
是 如 有 果 节 点 间 要 传递 大 量 数据 ， 效 率 就 会 降低 。 大 数据 量 传输 会 受到 IO Arr sun], XA SC fO 
也 营 常 如 此 。 此 外 ,管理 数据 共享 逻辑 和 失败 恢复 的 责任 也 完全 落 在 了 开发 者 身上 。 

SETI@Home (http://setiathome.berkeley.edu/ ) 和 Folding@Home ( http://folding.stanford.edu/ ) 
等 公共 计算 项 目 对 网 格 计算 的 想法 进行 了 扩展 ， 让 个 人 页 献 出 “ 空 几 ”的 CPU 周期 来 帮助 处 理 计 
算 密 集 型 任务 。 这 些 项 目 利 用 空闲 的 CPU 时 间 来 运行 ，CPU 周期 来 日 志愿 者 提供 的 成 百 上 千 ， 
有 时 甚至 是 上 百 万 台 个 人 机 融 。 这 些 机 需 与 互联 网 的 连接 时 开 时 断 ， 虽 然 每 个 个 体 未 必 可 靠 ,， 但 
是 仍然 组 成 了 巨大 的 计算 机 集群 。 通 过 合并 空闲 的 CPU ， 整 个 设施 总 体 上 更 像 是 单个 超级 计算 
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HL, ERE WEERAL. 

虽然 有 各 种 不 同 的 有 效 分 布 式 计算 解决 方案 , 但 是 它们 中 没有 一 个 能 将 数据 保持 在 计算 网 格 
本 地 来 减 小 市 宽 墙 蹇 。 很 少 有 人 会 齐 循 在 节点 间 不 共享 或 者 尽量 少 共享 的 策略 。MapReduce 的 灵 
感 来 目 于 因数 式 编程 的 理念 , 也 就 是 说 坚持 在 并 行进 程 或 线程 之 间 尽 量 减 少 相 互 依赖 ,同时 尽力 
将 数据 和 计算 保持 在 一 起 。MapReduce 主要 用 于 分 布 式 计算 ， 并 由 Google 持 有 专利 。 作 为 一 种 
高 效 可 徘 的 大 数据 处 理 方法 ,MapReduce 如 今 已 经 成 为 最 流行 的 方法 之 一 。MapReduce 提供 了 人 简 
单 、 容 错 的 模型 ， 以 便 有 效 地 计算 分 布 在 集群 上 的 大 数据 ， 集 群 可 由 商用 机 带 横 回 扩展 而 成 。 本 
草 将 解释 MapReduce， 并 探讨 这 种 编程 模型 在 大 数据 上 可 以 进行 的 计算 。 




















A MapReduce 的 camel-case 版 本 由 Google 使 用 和 推广 。 不 过 ， 这 里 所 堆 盖 
的 内 容 更 为 通用 ， 且 不 限于 Google 的 定义 。 
MapReduce 的 想法 发 布 在 一 篇 研究 论文 中 , 论文 在 线 地 址 : http;//labs.google. 
com/papers/mapreduce.html ( Dean, Jeffrey & Ghemawat, Sanjay (2004), “MapReduce: 
Simplifi ed Data Processing on Large Clusters" ). 


11.4 理解 MapReduce 


第 6 章 曾 介绍 过 用 MapReduce 分 组 MongoDB 集群 上 的 数据 ， 因 此 MapReduce 对 你 并 不 是 
完全 阳 生 的 。 不 过 为 了 解释 MapReduce 的 细节 和 习惯 用 法 ， 下 面 我 们 用 一 些 例子 来 重新 介绍 。 

开始 先 用 MapReduce 运行 一 些 查 询 ， 查 询 涉及 聚合 旺 数 ， 比 如 sum. maximum, minimum 
和 average。 要 用 到 1970 年 到 2010 年 间 NYSE 的 每 日 市 场 数据 ， 这 些 数据 对 外 公开 。 因 为 数 
据 是 按 日 汇总 ,每 只 股票 每 个 交易 日 只 有 一 个 数据 点 ， 所 以 数据 集 并 不 大 ， 肯定 没 大 到 大 数据 的 
程度 。 样 例 主要 是 关注 MapReduce 基础 ， 所 以 大 小 不 重要 。 这 个 例子 里 使 用 两 种 文档 数据 库 : 
MongoDB 和 CouchDB。MapReduce 不 特定 于 这 些 产 品 ， 而 是 适用 于 许多 NoSQL 产品 ， 包 括 有 
序列 族 存储 和 分 布 式 键 / 值 映射 。 因 为 文档 数据 库 的 安 猴 配置 不 用 花 特 别 多 的 精力 ， 而 且 很 容易 
在 本 地 模式 下 测试 ， 我 们 所 以 完 从 文档 数据 库 开 始 。 稍 后 再 介绍 通过 Hadoop 和 HBase 上 使 用 
MapReduce, 

开始 前 先 下 载 1970 年 至 2010 年 的 NYSE 市 场 数据 ,地 址 :http://infochimps.conydatasets/daily- 
1970-2010-open-close-hi-low-andvolume-nyse-exchange。 把 文件 解压 到 本 地 目录 ,其 中 包含 许多 文 
件 , 分 两 类 : 每 日 市 场 数据 文件 和 股 朋 数据 文件 。 为 了 简单 ， 只 加 载 每 日 市 场 数 据 文件 到 数据 库 
中 。 即 只 需要 那些 名 字 以 NYSE daily prices FA, 月 结尾 是 一 个 数字 或 字母 的 文件 。 这 些 
文件 中 末尾 有 一 个 数字 的 只 包含 头 信息 ， 因 而 可 以 跳 过 。 

MongoDB 数据 库 和 集合 分 别 命名 为 mydb 和 nyse, CouchDB 数据 库 命 名 为 nyse。 数 据 是 
CSV 格式 的 ， 可 以 利用 monogoimport 工具 将 数据 导入 到 MongoDB 集合 中 。 后 面 会 用 Python 脚 
本 把 这 个 .csv 文件 加 载 到 CouchDB 中 。 

WME NYSE daily prices A.csv 的 mongoimport 命令 及 其 输出 如 下 : 
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-/Applications/mongodb/bin/mongoimport --type csv --db mydb --collection nyse -- 
headerline NYSE daily prices A.csv 
connected to: 127.0.0.1 
4981480/40990992 123 
89700 29900/second 
10357231/40990992 25$ 
185900 30983/second 
15484231/40990992 37% 
278000 30888/second 
20647430/40990992 505% 
370100 30841/second 
25727124/40990992 62% 
462300 30820/second 
30439300/40990992 74% 
546600 30366/second 
35669019/40990992 87% 
639600 30457/second 
40652285/40990992 99$ 
729100 30379/gecond 
imported 735027 objects 


t SAFH ERANA. DAD ERIE Efe 364 ED FRUSS4, 可 以 考虑 用 shell 脚 
本 目 动 执行 任务 ， 脚 本 如 代码 清单 11-1 所 示 。 


C 代码 清单 11-1 infochimps nyse data loader.sh 
t!/bin/bash 
FILES-./infochimps dataset 4778 download 16677/NYSE/NYSE daily prices *.csv 
for f in SFILES 
do 
echo "Processing Sf file..." 
i set MONGODB HOME environment variable to point to the MongoDB installation 
folder. 
ls -1 Sf 
SMONGODB HOME/bin/mongoimport --type csv --db mydb --collection nyse -- 
headerline $f 
Done 





infochimps nyse data loadersh 


加 载 完 数据 以 后 ， 可 以 查看 单个 文档 来 检查 格式 : 
> db.nyse.findOne(); 
( 
" id" : ObjectId("4d451952968830c3755b5£7760"), 
"exchange" : "NYSE", 
"etock symbol" : "FDI", 
"date" : "1997-02-28", 
"stock price open" : 11.11, 
"stock price high" : 11.11, 
"stock price low" : 11.01, 
"Stock price close" : 11.01, 
"Stock volume" : 4200, 
"stock price adj close" : 4.54 
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下 面 用 MapReduce 来 处 理 集合 。 第 一 个 任务 是 找 出 1970 年 至 2010 年 间 每 股 最 高 价 。 

MapReduce 包括 两 部 分 :map 函数 和 reduce 孔 数 ,尽管 底层 系统 频繁 地 以 并 行 方式 执行 计算 ， 
但 这 两 个 函数 是 顺序 应 用 到 数据 上 的 。Map 接受 一 个 键 / 值 对 然后 发 出 男 一 个 键 / 值 对 。Reduce f% 
受 map 阶段 的 输出 ， 通 过 人 处理 这 些 键 / 值 对 产生 最 后 的 结果 。map 函数 会 应 用 到 集合 的 每 个 条 目 
E, 集合 可 以 大 到 分 布 在 多 台 物 理 机 器 上 。map 函数 运行 在 分 布 式 节点 本 地 集合 的 子 集 上 。 一 个 
节点 上 的 map 操作 和 男 一 个 市 点 上 的 map 操作 完全 独立 。 这 种 清晰 的 隔离 提供 了 高 效 的 并 行 处 
理 ， 同 时 还 能 文 持 失败 时 在 子 集 上 重新 运行 map RŽ 

map 困 数 在 整个 集合 上 运行 完 以 后 , 创建 出 来 的 值 传递 给 reduce 阶段 。 MapReduce 框架 会 
理 从 多 个 节点 收集 和 整理 输出 的 工作 ， 并 使 其 可 以 从 一 个 阶段 传递 到 下 一 个 阶段 。 

Reduce 因数 接收 map 阶段 生成 的 键 / 值 对 ,做 进一步 处 理 得 到 最 终结 果 。Reduce 阶段 可 能 会 
基于 一 个 公共 键 来 聚合 值 。Reduce 类 似 map ， 也 运行 在 分 布 式 集群 的 每 个 节点 上 。 不 同 节点 上 
reduce 操作 的 结果 会 合并 起 来 产生 最 终结 果 。 每 个 节点 执行 的 reduce 操作 独立 于 其 他 节点 ， 当 然 
最 后 的 合并 除外 。 

键 / 值 对 可 以 经 历 多 遍 map 和 reduce 阶段 ， 以 支持 对 已 分 组 和 聚合 过 的 数据 进行 再 聚合 、 再 
处 理 。 对 给 定数 据 集 ， 当 需要 多 种 不 同 的 汇总 数据 时 ， 这 种 情况 常会 发 生 。 


11.1.1 找 出 每 股 最 高 价 
让 我 们 回 到 第 一 个 任务 ， 即 找 出 1970 年 至 2010 年 间 每 股 最 高 价 ， 合 适 的 map 函数 如 下 : 


var map = function(í() { 
$ emit(this.stock symbol, { stock price high: this.stock price high )); 
E 




















& 











manipulate nyse market data.txt 


PACEM BIB SCA Es HEA, W stock symbol 作为 键 ， 并 生成 stock_ 
symbol 和 stock price high 组 合 的 键 / 值 对 。 过 程 如 图 11-1 所 示 : 


Key : "FDI", 
Value: ("stock price high" : 11.11] 


i 
" 10": objectID 

{"4d519529e883c3755b5£7760"), 
"exchange": "NYSE", 
"stock_symbol":"FDI", 
"date"':"1997-02-28", 
"Stock price open":11.11, 
"stock price high'ill.ll, 
"Stock, price low":11.01, 
"Stock, price close":11.01, 
"Stock volume":4200, 
"Stock price adj close":4.54 





图 11-1 
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map 阶段 提取 出 的 键 / 值 对 是 reduce 阶段 的 输入 。 在 MongoDB Œ, reduce 函数 可 以 定义 成 下 
面 的 JavaScript PRX: 


MongoDB 只 支持 用 JavaScript 定义 map 和 reduce 函数 。 





var reduce = function(key, values) { 
var highest price - 0.0; 
values.forEach(function(í(doc) { 
if( typeof doc.stock price high I= "undefined") { 
printí("doc.stock price high" + doc.stock price high); 
if (parseFloat(doc.stock price high) » highest price) ( highest price - 
parseFloat(doc.stock price high); printí("highest price" + highest price); ] 
j 
218 
return { highest stock price: highest price }; 
Ij 


manipulate nyse market data.txt 


reduce 因数 接受 两 个 参数 : 1 个 键 和 1 个 值 的 数组 。 在 这 个 例子 里 ， 代 号 "FDI" 的 股票 会 在 
map 阶段 产生 许多 不 同 的 键 / 值 对 。 其 中 一 些 如 下 : 


(key : "FDI", f "Stock price high" : 11.11 }) 
(key : "FDI", { "stock price high" : 11.18 }) 
(key : "FDI", { "stock price high" : 11.08 Y 
(key : "FDI", { "stock price high" : 10.99 Y 
(key : "EDI", { "stock price high" : 10.89 13 


算 一 下 总 数 : db.nyse.find((stock symbol: "FDI"}) .count();， 发 现 总 共有 5596 
条 记录 。 因 此 map 阶段 应 该 生成 同样 数量 的 键 / 值 对 。 考 虑 到 有 些 记录 的 值 没 有 定义 ， 所 以 map 
阶段 生成 的 结果 可 能 不 是 正好 5596 个 。 

reduce 六 数 像 这 样 接受 住 : 


reduce('FDI', [ístock price high: 11.113, (stock price high: 11.18], 
[stock price high: 11.08), {stock price high: 10.99], ...]); 


此 时 如 果 回 顾 reduce 函数 , 可 以 注意 到 对 每 个 键 都 遍历 了 对 应 的 值 数组 , 并 且 对 数组 的 每 个 
元 床 调 用 了 闭 包 。 这 个 闭 包 (或 者 说 殴 僵 也 数 ) 执行 一 个 人 简单 的 比较 , 确定 出 一 组 值 里 最 高 的 价 
格 。 

reduce 阶段 的 输出 是 一 组 包含 股票 代号 和 最 高 价格 的 键 / 值 对 ， 每 只 股票 一 个 键 / 值 对 。 
MongoDB 文 持 一 个 可 选 的 finalize K, EIZA reduce 卫 数 的 输出 并 进一步 汇总 。 

下 面 ， 在 CouchDB 里 加 载 同样 的 数据 ， 然 后 用 MapReduce 执行 一 些 其 他 类 型 的 聚合 晒 数 。 





























11.1.2 “加载 历史 NYSE 市 场 数 据 到 CouchDB 
开始 前 ， 需 要 用 脚本 解析 .csv 文件 , 将 .csv 记录 转换 成 JSON 文档 ， 然 后 将 其 加 载 入 
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CouchDB 服务 大。 用 人 简单 的 顺序 Python 脚本 就 可 以 完成 任务 ， 不 过 顺序 加 载 900 万 文档 还 是 很 
慢 。 更 实际 的 情况 是 用 更 健壮 的 并 行 脚本 把 数据 添加 到 CouchDB 里 。 为 了 获取 最 大 效率 ， 还 可 
以 利用 CouchDB 的 批量 上 传 API 同时 上 传 几 千 个 文档 。 

脚本 的 核心 功能 封装 在 名 为 upload nyse market data 的 了 汕 数 里 ， 内 容 如 下 : 


def upload nyse market dataí(í): 
couch server = Couch('localhost', '5984') 
print "WAnCreate database 'nyse db':" 
couch server.createDb('nyse db') 











for file in os.listdir(PATH): 
if f£nmatch.fnmatch(file, 'NYSE daily prices *.csv'): 
print "opening file: " + file 
f = open(PATH-file, 'r' ) 
reader = csv.DictReader( f ) 
print "beginning to save json documents converted from csv data in 
" + file for row in reader: 
json doc = json.dumps (row) 
couch server.saveDocí('nyse db', json doc) 
print "available json documents converted from csv data in 
" + file + " saved" 
print "closing " + file 
f.close() 


upload nyse market data couchdb.py 


这 个 函数 解析 所 有 文件 名 匹配 'NYSE_daily_prices_x*.csv' 的 文件 。Python 脚本 利用 
csv.DicReader 解 析 .csv 文 件 并 轻松 提取 头 信 息 ,然后 用 JSON 模 块 把 解析 完 的 记录 转 成 JSON 
文档 。 这 个 函数 用 Couch 类 连接 CouchDB 服务 硕 , 创建 和 删除 数据 库 , 添加 和 删除 文档 。coucnh 
类 是 对 CouchDB REST API 的 简单 封装 , 从 CouchDB wiki ( http://wiki.apache.org/couchdb/Getting 
startedwith Python ) 样 例 得 到 了 很 多 启发 。 

数据 加 载 完 以 后 ,用 MapReduce 执行 聚合 阻 数 ,首先 重新 执行 前 面 MongoDB 里 试 过 的 查询 ， 
即 找 出 1970 年 到 2010 年 间 每 股 最 高 价 。 然 后 再 执行 另外 一 个 查询 ， 找 出 1970 年 至 2010 年 之 间 
每 只 股票 每 年 的 最 低 价格 。 第 一 个 查询 中 最 高 价格 要 从 整个 40 年 里 找 出 来 ， 第 二 个 查询 则 按 两 
个 级 别 聚 合 数据 : 年 份 和 股票 。 

CouchDB 里 ,对 文档 数据 库 进 行 处 理 和 过 滤 的 MapReduce 查询 会 创建 视图 ,视图 是 CouchDB 
文档 查询 和 报告 的 主要 工具 。 有 两 种 视图 : 永久 的 和 临时 的 。 这 一 市 使 用 永久 视图 来 演示 。 永 久 
视图 会 生成 底层 数据 索引 ,索引 建 完 以 后 ,， 它 的 速度 就 能 变 快 ， 因 此 建议 在 生产 环境 中 使 用 。 临 
时 视图 适 于 原型 设计 。 视 图 定义 在 设计 文档 里 。 设 计 文 档 是 特殊 类 型 的 CouchDB 文档 ， 可 以 执 
行 应 用 程序 代码 。CouchDB 支持 多 视图 服务 如 ， 即 能 用 不 同 编程 语言 编写 代码 。 这 意味 着 可 以 
使 用 JavaScript, Erlang, Java 或 其 他 任何 所 文 持 的 语言 为 CouchDB 编写 MapReduce, ARRI] 
用 JavaScript 来 说 明 CouchDB 的 基于 MapReduce 的 查询 功能 。 

下 面 的 设计 文档 包含 了 三 个 视图 ， 它 们 的 目的 分 别 如 下 。 

a 列 出 所 有 文档 。 
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a 找 出 1970 年 至 2010 年 之 间 每 股 最 高 价格 。 
ü 找 出 每 只 股票 每 年 的 最 低 价格 。 





设计 文档 如 下 : 
( 
" id":" design/marketdata", 
"language": "javascript", 
"views": { 
"all": T 
"map": "function (doc) { emit (null, doc) }" 
), 
"highest price per stock": { 
"map": "functioní(doc) { emití(doc.stock symbol, doc.stock price high) Jj", 
"reduce": "function(key, values) { 


highest price - 0.0; 
for(var iz0; i«values.length; i++} { 
if( (typeof values[i] != 'undefined') && (parseFloatí(values[i]) > 
highest price) ) { 
highest price - parseFloat(values[i]); 


| 





} 
return highest price; 
ja 
), 
"lowest price per stock per year': ( 
"nap": "function(doc) { emití([doc.stock symbol, doc.date.substr(0,4)], 
doc.stock price low) 】 
"reduce": "function(key, values) { 
lowest price = parseFloat(values[0]); 
for(var i-0; i«values.length; i++} { 
if( (typeof values[i] != 'undefined') && (parseFloat(values[i]) < 
lowest price) ) { 
lowest price = parseFloat(values[i]); 
} 
Í 
return lowest_price; 
p 
) 


l 


mydesign.json 


这 个 设计 文档 保存 在 名 为 mydesign .json 的 文件 中 , 将 该 文档 上 传 到 myse. abo 数据 库 中 

curl -X PUT http://127.0.0.1:5984/nyse db/ design/marketdata -d Gmydesign.json 

CouchDB 的 REST 式 交互 和 JSON 文档 让 管理 数据 库 文 档 变 得 非常 简单 ， 就 是 编辑 、 上 传 设 
计 文档 。 使 用 HTTP PUT 方 法 上 传 设计 文档 会 得 到 下 面 的 响应 : 

("ok":true,"id":" design/marketdata","rev":"1-9cceldac6ab04845dd01802188491459") 


啊 应 的 部 分 内 容 会 有 所 变化 , BEREI Y R, 那 说 明 要 么 设计 文档 出 了 问题 , 要 么 上 
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传 操 作出 了 问题 。 

Futon 是 CouchDB 基于 Web 的 管理 界面 ， 能 用 来 查看 设计 文档 ， 调 用 视图 触发 MapReduce 
任务 。 第 一 次 在 大 量 数据 上 运行 MapReduce 可 能 比较 慢 , 因为 CouchDB 要 基于 map KAONE 
引 。 后 续 运 行使 用 索引 ， 执 行 起 来 就 快 多 了 。Futon 还 提供 了 分 阶段 视图 来 展示 map F reduce 4E 
务 ， 对 理解 数据 的 聚合 过 程 非常 有 用 。 

前 面 例子 的 聚合 逻辑 非常 众 单 , 没有 什么 需要 解释 的 。 不 过 设计 文档 和 视图 有 些 值得 注意 的 
4h7;, Hoo. 设计 文 档 里 的 "language" 属 性 指明 了 处 理 文档 的 视图 服务 疾 。 我 们 的 代码 是 用 
JavaScript 编写 的 ， 所 以 "language" 属 性 的 值 也 这 样 声 明 ， 如 果 不 声明 则 默认 用 JavaScript。 如 
果 你 用 的 是 Erlang 或 Java， 而 不 是 JavaScript， 王 万 要 记得 指定 。 其 次 ， 所 有 MapReduce 的 视图 
代码 都 包含 在 "view" 属 性 的 值 里 。 第 三 MapReduce 键 / 值 对 里 的 键 不 必 是 字符 串 , 可 以 是 任何 有 
效 的 JSON 类 型 。 计 算 每 股 每 年 最 低 价 的 视图 从 文档 的 aate 属性 中 提取 出 年 份 ， 用 股票 和 年 份 
作为 键 ， 从 而 简化 了 计算 。 第 四 ， 永 久 视 图 按 map 阶段 生成 的 键 对 文档 进行 索引 。 如 果 生 成 的 
键 是 股票 代号 和 年 份 ， 那 么 文档 也 会 用 这 两 个 属性 按 给 定 次 序 索 3|。 

可 以 通过 访问 视图 来 触发 MapReduce 运行 。REST 风格 的 视图 访问 可 以 通过 Futon 控制 台 、 
通过 curl 等 命令 行 工具 或 者 其 他 文 持 REST 交互 的 机 制 用 浏览 絮 来 调用 。 

看 过 MongoDB 和 CouchDB 这 两 种 文档 数据 库 使 用 MapReduce 的 例子 后 ， 下 面 介 绍 列 族 有 
序 存 储 。 












































11.2 MapReduce 和 HBase 


接 下 来 我 们 加 载 NYSE 数据 集 到 HBase 实例 中 。 这 一 次 用 MapReduce 来 解析 .csv 文件 , 并 
将 数据 加 载 到 HBase 中 。 这 种 “ 链 式 ”MapReduce 用 法 非常 流行 ， 而 且 很 适合 解析 大 文件 。 数 据 
加 载 人 HBase 以 后 , 再 用 MapReduce 来 运行 儿 个 聚合 因数。 前 面 展示 过 MapReduce 的 两 个 例子 。 
下 来 一 个 应 该 能 帮助 你 加 强 对 MapReduce 概念 的 理解 ， 同 时 展示 它 对 多 种 情况 的 适应 性 。 

在 HBase 中 Java 是 MapReduce 编程 的 首选 .此 外 还 可 以 用 Python Ruby 或 PHP 编写 MapReduce 
任务 ， 把 HBase 当 作 任务 的 开始 和 /或 终点 。 这 个 例子 要 创建 以 下 四 部 分 程序 来 协调 工作 。 

口 mapper 类 生成 键 / 值 对 。 

口 reducer 类 接受 mapper 生成 的 值 , 通过 处 理 创 建 聚 合 。 在 数据 上 传 的 例子 里 ,mapper 只 是 

插入 数据 到 HBase 表 中 。 

Q 驱动 类 连接 mapper 类 和 reducer 类 。 

口 入口 类 在 其 main 方法 中 触发 任务 。 

这 四 部 分 也 可 以 合并 到 一 个 类 里 面 ,这 种 情况 下 mapper 类 和 reducer 类 可 以 改 成 静态 鹏 套 类 。 
不 过 在 这 个 例子 中 我 们 还 是 创建 四 个 类 ， 每 个 类 对 应 上 面 提 到 的 一 个 程序 部 分 。 

假设 Hadoop 和 HBase 已 经 安装 配置 好 了 。 请 添加 下 列 .jar 文件 到 Java classpath 中 ， 确 保 
例子 能 编译 通过 和 运行 : 


L] hadoop-0.20.2-ant.jar 
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L] hadoop-0.20.2-core.jar 
L] hadoop-0.20.2-tools.jar 


L] hbase-0.20.6.jar 
hadoop jar 文件 在 Hadoop 发 行 包 里 ，hbase jar 则 来 自 HBase。 


mapper 代码 如 下 : 


package com.treasuryofideas.hbasemr; 
import java.io.BufferedReader; 
import java.io.FileReader; 

import Jsva lo.l0EXCODUL00; 


import org.apache.hadoop.io.LongWritable; 
import org.apache.hadoop.io.MapWritable; 
import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Mapper; 


public class NyseMarketDataMapper extends . 
Mapper«LongWritable, Text, Text, MapWritable» ( 


public void mapí(LongWritable key, MapWritable value, Context context) 
throws IOException, InterruptedException { 


nal Text EXCHANGE = new Text ("exchange"); 

nal Text STOCK SYMBOL = new Text("stockSymbol"); 

Text DATE = new Text ("date"); 

Text STOCK PRICE OPEN = new Text("stockPriceOpen"); 

Text STOCK PRICE HIGH = new Text("stockPriceHigh"); 

Text STOCK PRICE LOW = new Textí("stockPriceLow"); 

inal Text STOCK PRICE CLOSE = new Textí("stockPriceClose"); 

inal Text STOCK VOLUME = new Textí("stockVolume"); 

inal Text STOCK PRICE ADJ CLOSE = new Text("stockPriceAdjClose"); 


| | Fs 
D D 
1 2 E 


| 
D 
P 





Fh rh Fh rh Fh rh rb rn rh 
- i- H- l- [4 

> 

P 














try 





// 样 例 数 据 文件 
String strFile = "data/NYSE daily prices A.csv"; 


//create BufferedReader to read csv file 

BufferedReader br = new BufferedReader( new FileReaderí(strFile)); 
String strLine = "":; 

int lineNumber 


I 
e 


// 按 行 读 取 数 据 

while( (strLine = br.readLine()) != null) 

i 

lineNumber--; 
if(lineNumber > 1) { 

String[] data values = strLine.split(","); 
Mapwritable marketData = new MapWritable(); 
marketData.put(EXCHANGE, new Text (data values[0])); 
marketData.put(STOCK SYMBOL, new Text(data values[1])); 
marketData.put(DATE, new Text (data values[2])); 
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marketData.put(STOCK PRICE OPEN, new Text (data values[3]l)); 
marketData.put(STOCK PRICE HIGH, new Textí(data values[4])); 
marketData.put(STOCK PRICE LOW, new Textí(data values[5])); 
marketData.put(STOCK PRICE CLOSE, new Text (data values[6])): 
marketData.put(STOCK VOLUMB, new Text (data values[7])); 
marketData.put(STOCK PRICE ADJ CLOSE, new Text (data values[8])); 
context.write(new Textí(String.formatí("$s-s", data values[1], 
data values[21)), marketData); 


) 


} 


catch (Exception e) 


í 


System.errout.println("Exception while reading csv file or process 
interrupted: " + e); 


) 


) 


NyseMarketDataMapper.java 


前 面 的 代码 非常 基础 ， 重 点 展示 了 map KAIKE, mapper 类 继承 自 org.apache. 
hadoop .mapreduce.Mapper， 并 实现 了 map 方法 。Map 方法 接受 键 、 信 和 上 下 文 对 象 作 为 输 
人 参数。 注意 ， 在 emit 方法 中 ， 我 把 股票 代码 和 日 期 连 在 一 起 创建 了 一 个 复杂 键 。 

.csv 解析 逻辑 本 刁 很 简单 ， 可 能 只 需 稍 作 修 改 来 文 持 条 目 内 出 现 逗 号 的 情况 。 不 过 对 例子 
中 这 个 数据 集 而 言 ， 它 工作 得 很 好 。 

第 二 部 分 是 含有 reduce 方法 的 reducer 类 。reduce 方法 把 数据 上 传 到 HBase 表 中 ， 代 码 
如 下 : 


public class NyseMarketDataReducer extends TableReducer«Text, MapWritable, 
ImmutableBytesWritable» { 
public void reduce(Text arg0, Iterable argl, Context context) | 


// 股 票 代号 和 日 期 组 成 的 复合 键 是 唯一 的 ， 所 以 一 个 值 对 应 一 个 键 














Map marketData = null; 

for (MapWritable value : argl) { 
marketData - value; 
break; 


ImmutableBytesWritable key - new ImmutableBytesWritable(Bytes 
.toBytesí(argÜ0.toString())); 

Put put = new Put(Bytes.toBytes(argO.toString())); 

put.addí(Bytes.toBytes("mdata"), Bytes.toBytes("daily"), Bytes 
.toBytes((ByteBuffer) marketData)); 

try d 
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context.write(key, put); 
) catch (IOException e) { 

// TODO Auto-generated catch block 
) catch (InterruptedException e) { 

// TODO Auto-generated catch block 


NyseMarketDataReducer.java 
map PAFI reduce 函数 在 驶 动 类 里 被 连 起 来 ， 代 人 码 如 下 : 


public class NyseMarketDataDriver extends Configured implements Tool { 
V. GOverride 
public int run(String[] arg0) throws Exception | 
HBaseConfiguration conf = new HBaseConfiguration(); 
Job job = new Job(conf, "NYSE Market Data Sample Application"); 
job.setJarByClass(NyseMarketDataSampleApplication.class); 
job.setInputFormatClass(TextInputFormat.class); 
job.setMapperClass(NyseMarketDataMapper.class); 
job.setReducerClass(NyseMarketDataReducer.class); 
job.setMapOutputKeyClass(Text.class); 
job.setMapOutputValueClass(Text.class); 


FilelnputFormat.addInputPathí(job, new Path( 
"hdfs://localhost/path/to/NYSE daily prices A.csv")); 
TableMapReduceUtil.initTableReducerJob("nysemarketdata", 
NyseMarketDataReducer.class, job); 
boolean jobSucceeded = job.waitForCompletion(í(true); 
if (jobSucceeded) { 
return 0; 
} else { 
return -1; 





NyseMarketDataDriver.java 
最 后 触发 驱动 ， 代 码 如 下 : 


package com.treasuryofideas.hbasemr; 
Y import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.util.ToolRunner; 


public class NyseMarketDataSampleApplication { 
public static void main(String[] args) throws Exception { 
int m re = Q; 
m rc = ToolRunner.run(new Configuration(), 
new NyseMarketDataDriver{(}, args); 
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System.exit(m rc); 


NyseMarketDataSampleApplication.java 


到 这 儿 MapReduce 和 HBase 的 一 个 人 简单 例子 就 介绍 完了 。 下 面 你 将 会 看 到 更 多 例子 ， 它 们 
比 一 句 简 单 的 HBase 5 TE SB dg Ze 








11.3 MapReduce 和 Apache Mahout 


MapReduce 可 以 用 来 解决 很 多 问题 。Google、Yahoo! 、Facebook 和 许多 其 他 组 织 在 各 种 各 样 
丰富 的 场景 中 都 使 用 了 MapReduce, 这 些 场景 包括 分 布 式 排序 、Web 链接 图 遍历 、 日 志文 件 统计 、 
文档 聚 类 和 机 融和 学 习 。 不 仅 如 此 ，MapReduce 能够 适用 的 场景 正 变 得 越 来 越 多 。 

Apache Mahout 期 望 用 Hadoop 和 MapReduce 建立 起 一 套 完 整 的 可 扩展 的 机 需 学 习 套 件 和 数 
HIKE, APTA Mahout 和 这 个 项 目的 一 些 例子 。 硕 望 通 过 我 的 介绍 能 推动 你 进一步 探索 
MapReduce， 帮 助 你 在 特定 场景 中 高 效 地 使 用 MapReduce。 

首先 访问 mahout.apache.org 下 载 最 新 的 发 行 包 或 者 源 代 但 。 这 个 项 目 还 在 持续 地 快速 演进 和 
增加 新 功能 ， 所 以 最 好 用 源 代码 构建 。 除 JDK 外 唯一 需要 的 是 SVN 客户 端 和 Maven 3.0.2 ( 或 更 
高 ) 版 本 ， 前 一 个 用 来 下 载 源 代码 ， 后 一 个 用 来 构建 安装 。 

获取 代码 如 下 : 

svn co http://svn.apache.org/repos/ast/mahout/trunk 

FAS EARS "trunk" HR, HÍT PI Ba S RENE Apache Mahout: 


mvn compile 
mvn install 


还 有 Mahout 样 例 : 


cd examples 
mvn compile 


Mahout 附 市 了 taste-web recommender 样 例 程序 。 可 以 在 taste-web 目录 下 执行 mvn 来 编译 和 
运行 程序 。 

虽然 Mahout 是 一 个 新 项 目 ， 但 是 它 包 含 了 聚 类 、 分 类 、 协 同 过 滤 和 进化 规划 的 实现 。 解 释 
这 些 机 需 学 习 主 题 的 含义 超过 了 本 书 的 范畴 ， 不 过 我 会 介绍 一 个 最 基本 的 例子 来 展示 如 何 使 用 
Mahout。 

Mahout 包括 了 一 个 推荐 引擎 类 库 Taste。 它 使 用 协同 过 滤 ， 用 来 快速 构建 基于 用 户 和 基于 物 
m BTE E A ARE. 

Taste 主要 包含 以 下 五 部 分 。 

口 DataModel: 存 售 用户、 物品 和 偏好 的 抽象 模型 。 

口 UserSimilarity: 定义 两 个 用 户 之 间 相 似 性 的 接口 。 
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O ItemSimilarity: 定义 两 个 物品 之 间 相 似 性 的 接口 。 

O Recommender: 推荐 提供 者 要 实现 的 接口 。 

口 UserNeighborhood: 推荐 系统 用 邻居 表示 相似 用 户 ， 进 而 产生 推荐 。 这 个 接口 定义 邻居 。 

你 可 以 利用 Hadoop 在 大 数据 集 上 运行 批 处 理 计算 来 构建 推荐 系统 ， 使 其 成 为 高 度 可 扩展 的 
HEJAR. 

假设 用 户 对 一 组 物品 的 评分 放 在 ratings .csv 的 文件 里 ,每 一 行 包括 user_id, item_id, 
ratings， 这 和 前 面 的 MovieLens 数据 集 很 相似 。Mahout 有 一 父 丰 高 的 模型 类 来 映射 这 个 数据 
集 。 可 以 像 下 面 这 样 使 用 FileDataModel: 

FileDataModel dataModel = new FileDataModel(new File(ratings.csv)); 

下 面 要 确定 一 种 测量 距离 的 方法 来 表示 两 个 不 同 用 户 的 评分 有 多 相似 。 欧 几 里 德 距离 是 这 类 
方法 中 最 简单 的 ， 很 多 时 候 也 可 以 用 皮尔 木 相关 Pearson correlation )。 使 用 皮尔 森 相 关 ， 和 需 配 
置 相 似 性 类 型 如 下 : 


UserSimilarity userSimilarity = new PearsonCorrelationSimilarity(dataModel); 


下 面 定 义 UserNeighborhood 和 Recormmender ， 并 结合 它们 来 生成 推荐 。 代 人 码 如 下 : 


//Get a neighborhood of users 
UserNeighborhood neighborhood = 
new NearestNUserNeighborhood(neighborhoodSize, userSimilarity, dataModel)!; 
//Create the recommender 
Recommender recommender - 
new GenericUserBasedRecommender(dataModel, neighborhood, userSimilarity); 
User user = dataModel.getUser(userld); 
System.out.printin("User: " + user); 
//Print out the users own preferences first 
TasteUtils.printPreferences(user, handler.map); 
//Get the top 5 recommendations 
List«RecommendedItem» recommendations = 
recommender.recommend(userlId, 5); 
TasteUtils.printRecs(recommendations, handler.map); 
































‘Taste’ example 





这 就 是 构建 并 运行 一 个 简单 的 推荐 系统 所 需 的 所 有 工作 。 

上 面 的 例子 没有 显 式 地 使 用 MapReduce， 而 是 使 用 了 基于 协同 过 滤 的 推荐 系统 。Mahout 使 
用 MapReduce 来 完成 任务 , 利用 Hadoop 基础 设施 在 大 的 分 布 式 数据 上 计算 推荐 分 数 ， 只 不 过 大 
部 分 底层 基础 设施 被 抽象 掉 了 。 

本 章 演示 了 一 系列 MapReduce 样 例 ， 展 示 了 如 何 能 优雅 地 处 理 复杂 的 大 数据 集 。 不 需要 底 
JZ API, 无 需 担 心 资源 死 锁 或 者 饥 俄 。 此 外 保持 数据 和 计算 在 一 起 减少 了 VO 和 带宽 约束 的 影响 。 











11.4 h 





MapReduce 是 一 种 快速 高 效 处 理 大 量 信 息 的 方法 。Google 用 它 来 处 理 很 多 繁重 的 工作 。 
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Google 非常 善意 地 与 研究 和 开发 社区 分 享 了 它 的 底层 思想 。 此 外 ，Hadoop 团队 构建 了 一 个 健壮 
的 ， 可 扩展 的 开源 基础 设施 来 利用 这 一 处 理 模型 。 其 他 NoSQL 项 目 和 供应 商 也 采用 了 
MapReduce, 

在 所 有 高 可 扩展 和 分 布 式 模型 中 ，MapReduce 者 在 代替 SQL 来 处 理 海量 数据 。 其 性 能 和 “无 
共享 ”模型 成 功 地 超越 了 传统 SQL 模型 。 

编写 MapReduce 程序 相对 简单 ， 因 为 基础 设施 负责 处 理 复杂 性 ， 开 发 者 可 以 专注 于 链接 
MapReduce 任务 ， 并 使 用 它们 处 理 大 量 数据 。 和 常见 的 MapReduce 任务 可 以 交 由 一 个 公共 的 基础 
设施 ， 比 如 CouchDB 内 建 的 reducer, 或 者 Apache Mahout 这 样 的 项 目 来 处 理 。 不 过 有 时 在 定义 
键 和 使 用 reducer 上 还 是 需要 多 加 注意 。 
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使 用 Hive 分 析 大 数据 


本 章 内 容 

口 介绍 Apache Hive， 基 于 Hadoop 的 数据 仓库 
OQ 按 样 例 学 习 Hive 

OQ rf Hive 命 令 语法 和 语义 

口 用 Hive 查询 MovieLens 数据 集 


数据 核心 问题 的 解决 方案 包括 了 宽松 的 数据 结构 、 列 族 存 储 、 分 布 式 文件 系统 、 复 制 ， 
有 时 也 包括 最 终 一 致 性 。 这 些 解 决 方案 的 重点 在 于 管理 大 量 的 、 稀 下 的 、 去 正规 化 的 
数据 ， 它 们 通常 大 到 TB 量 级 。 使 用 这 些 存储 分 析 和 访问 数据 的 方式 一 般 都 是 特定 的 ， 或 者 预定 
义 好 的 。 因 此 即时 查询 和 丰富 的 查询 表达 式 的 文 持 往往 优先 级 并 不 高 ,而且 也 没有 现成 可 用 的 方 
案 。 此 外 许多 大 数据 解决 方案 使 用 的 产品 相对 较 新 , 仍 在 快速 演进 之 中 。 这 些 产 品 还 没有 得 到 大 
范围 测试 ， 距 离 功 能 完善 也 很 遥远 。 即 是 说 ， 它 们 只 擅长 做 被 设计 来 做 的 事情 : 管理 大 数据 。 
相 比 新 兴 的 大 数据 解决 方案 ，RDBMS A ERPE AAETH. APREA, 
最 重要 的 就 是 SQL。 作 为 查询 数据 的 方式 ， 它 非常 强大 便利 : 可 以 分 组 、 翻 转 、 聚 合 和 关联 集合 
数据 。NoSQL 中 最 为 缺失 的 正 是 类 似 SQL 的 东西 ， 这 点 尤为 骸 刺 。 
随 看 对 类 SQL 语法 和 高 层 抽象 之 便利 的 需求 逐渐 觉醒 ，Hive 和 Pig 出 现 了 。Apache Hive 是 
建立 在 Hadoop 基础 上 的 数据 仓库 ，Apache Pig 是 大 数据 分 析 的 高 级 语言 。 本 章 介 绍 Hive 和 Pig, 
并 展示 如 何 利 用 这 些 工 具 分 析 大 数据 集 。 





























Google App Engine ( GAE ) 提供 GQL 来 支持 类 SQL 查询 。 





12.1 Hive 基础 





开始 学 习 Hive 前 ， 需 要 先 安装 Hive. Hive 基于 Hadoop， 因 此 要 先 安装 Hadoop. Hadoop 
可 以 从 hadoop.apache.org 上 下 载 ( Hadoop 安装 参阅 附录 A )。 目 前 Hive 支持 Java 1.6 和 Hadoop 
0.20.2, 请 注意 获取 这 三 个 软件 的 正确 版 本 。Hive 在 Mac OS X 和 任何 Linux 版 本 上 都 没有 问题 。 
在 Windows 也 许 能 通过 Cygwin 运行 Hive,， 但 是 本 章 不 会 介绍 。 如 果 你 使 用 Windows， 没 有 
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Mac OS 义 或 者 Linux 环境 ,可 以 考虑 用 VMWare Player 和 虚拟 机 。 参 阅 附 录 A 了 解 如 何 获取 和 
安 闻 虚拟 机 。 

4C Hive 很 容 匈 。 只 需 执 行 下 列 步 又 。 

(1) 下 载 稳定 版 Hive; Mac OS X 上 下 载 hive-0.6.0 使 用 命令 curl -O http://mirror.candidhosting. 
com/pub/apache//hive/hive-0.6.0/hive-0.6.0.tar.gz, Linux 上 用 wget 代替 curl- 

(2) 解压 文件 。 在 MacOSX 和 Linux 上 ， 解 压 命 令 是 tar zxvf hive-0.6.0.tar.gz. 

(3) 设置 HIVE_HOME 环境 变量 指 回 Hive 22x H Ko 

(4) 添加 SHIVE_HOME/bin 到 PATH 环境 变量 中 ， 以 方便 在 Hive 主 目录 外 使 用 。 

(5) 在 SHADOOP_HOME 目录 中 执行 bin/start-all.sh， 以 启动 Hadoop 后 台 进 程 。 这 样 会 
启动 HDFS namenode、 次 级 namenode 和 datanode， 还 会 启动 MapReduce 的 job tracker 和 task 
tracker。 用 jps 命令 确认 这 五 个 进程 运行 起 来 。 

(6) Æ HDFS 上 创建 /tmp fll/user/hive/warehouse 目录 ， 如 下 : 


bin/hadoop fs -mkdir /tmp 
bin/hadoop fs -mkdir /user/hive/warehouse 


其 中 /user/hive/warehouse 是 hive 元 存储 仓库 目录 。 
(7) 设置 组 用 户 对 /tmp fll/user/hive/warehouse 目录 的 写 权 限 。 可 以 用 chmod 命令 修改 
PUR : 


bin/hadoop fs -chmod g+w /tmp 
bin/hadoop fs -chmod g+w /user/hive/warehouse 


完成 上 述 步 又 后 ， 就 可 以 使 用 Hive 上 的 Hadoop 集群 了 。 在 SHIVE_HOME 目录 下 运行 
bin/hive 来 启动 Hive 命 令 行 接口 ( CLI )。 你 会 觉得 使 用 Hive CLI 的 感 党 似曾相识， 因为 其 语 
法 和 命令 行 访问 RDBMS 的 语法 很 相似 。 





在 我 的 伪 分 布 式 本 地 安装 里 ,bin/start-all .sh 会 为 HDFS 和 MapReduce 


守护 进程 产生 5 个 Java 进程 。 





开始 先 列 出 所 有 已 存在 的 表 : 


SHOW TABLES; 


hive examples.txt 


还 没 创建 过 表 ， 所 以 会 返回 empty OK 和 执行 耗 时 。 大 多 数据 库 CLI 都 会 输出 查询 耗 时 ， 它 
是 查询 局 效 忆 否 的 第 一 个 指示 带 。 





Hive 不 是 用 来 做 实时 查询 的 
Hive 在 Hadoop 上 提供 了 优雅 的 类 SOL 查询 框架 。Hadoop 基础 设施 有 很 好 的 扩展 性 ， 能 
处 理 海量 的 分 布 式 数 据 集 。 可 以 说 ，Hive 利用 HDFS 和 MapReduce 为 查询 和 处 理 大 数据 集 提 
供 的 抽象 层 很 强大 。 
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虽然 如 此 ，Hive 并 不 是 实时 查询 系统 。 它 更 适合 批量 处 理 。Hive 对 Hadoop 和 MapReduce 
的 依赖 导致 它 在 任务 提交 与 调度 方面 存在 大 量 开 销 ， 因 此 Hive 查询 的 延迟 往往 非常 高 。 在 你 
学 习 各 种 例子 和 使 用 CLI 尝试 Hive 的 过 程 中 ， 就 会 注意 到 花费 在 执行 查询 上 的 时 间 ， 即 便 小 
数据 集 也 在 秒 级 ， 有 时 其 至 是 分 钟 级 ， 这 和 RDBMS 执行 类 似 查 询 的 耗 时 形成 鲜明 对 比 。Hive 
中 不 存在 查询 缓存 ， 所 以 重复 查询 耗 时 和 第 一 次 查询 一 样 。 

数据 量变 大 时 ，Hadoop 在 大 规模 上 的 效率 让 Hive 的 开销 变 得 微不足道 。 当 查询 可 能 会 扫 
描 每 行 数据 时 ， 传 统 的 RDBMS 可 能 会 回 到 表 扫 描 。 与 之 类 似 ， 在 极 大 量 数 据 和 批量 操作 时 ， 
Hive 的 性 能 最 优 。 


下 面 ， 先 创建 一 个 表 : 


CREATE TABLE books (isbn INT, title STRING); 


hive examples.txt 


我 们 创建 了 一 个 书籍 表 ， 包 含 两 列 : isbn 和 title。 数 据 类 型 分 别 是 整数 和 字符 串 。 要 显 








hive» DESCRIBE books; 

OK 

Isbn int 

Title string 

Time taken: 0.263 seconds 


hive examples.txt 


再 创建 一 个 users X: 


CREATE TABLE users (id INT, name STRING) PARTITIONED BY (vcol STRING); 


hive examples.txt 


users X -—JJ:id.name 和 vcol。 你 可 以 用 DESCRIBE 来 确认 表 结 构 : hive» DESCRIBE 


users; OK Id int Name string Vcol string Time taken: 0.12 seconds hive examples.txt 


vcol 列 是 虚拟 的 ， 它 表示 分 区 ， 值 取 目 数据 被 存储 的 分 区 ， 而 非 效 据 本 身 。 一 个 表 可 以 被 





划分 成 多 个 逻辑 组 成 部 分 。 每 个 逻辑 组 成 部 分 有 一 个 标识 ， 标 识 存储 在 虚拟 列 中 。 


现在 执行 SHOW TABLES 命令 列 出 已 创建 的 表 


hive» DESCRIBE users; 

OK 

Id int 

Name string 

Vcol string 

Time taken: 0.12 seconds 


hive examples.txt 


表 book 存储 图 书 数据 , isbn Hl title 分 别 标识 和 描述 一 本 书 , 但 只 有 两 个 属性 过 于 人 简单 ， 


加 上 author FI category 列 似 乎 不 错 。 在 RDBMS 里 ， 这 样 的 操作 通过 ALTER TABLE 完成 。 
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Hive 也 支持 类 似 的 请 法， 这 点 也 没 哈 奇怪 的 ， 可 以 像 下 面 这 样 修改 book 表 添 加 新 列 : 


ALTER TABLE books ADD COLUMNS (author STRING, category STRING); 


hive examples.txt 


重新 确定 book 表 修 改 后 的 结构 : 


hive» DESCRIBE books; 

OK 

Isbn int 

Title string 

Author string 

Category string 

Time taken: 0.112 seconds 


hive examples.txt 


下 面 修 改 author 列 来 适应 一 书 多 作者 的 情况 ,这 时 字符 串 数 组 比 单 个 字符 串 表 达 力 更 好 。 
如 果 修 改 时 还 想 在 列 上 附加 注释 ， 说明 此 列 存储 多 值 数据 ， 可 以 用 下 面 的 命令 实现 : 


ALTER TABLE books CHANGE author author ARRAY<STRING> COMMENT "multi-valued"; 











hive examples.txt 


author 列 的 修改 之 后 ， 重 新 运行 DESCRIBE TABLE， 输 出 如 下 : 


hive» DESCRIBE books; 

OK 

Isbn int 

Title string 

Author array«string-» multi-valued 
Category string 

Time taken: 0.109 seconds 


hive examples.txt 





ALTER TABLE 命令 文 持 用 下 面 的 语法 修改 表 属 性 : 
ALTER TABLE table name CHANGE [COLUMN] 

old column name new column name column type 
[COMMENT column comment] 

[FIRST|AFTER column name: 


用 ALTER TABLE 时 ， 命 令 参 数 必 须 和 上 面 展示 的 顺序 保持 一 致 。 方 括号 〈[] ) 里 的 参数 可 选 ， 
剩 下 的 必须 以 正确 顺序 出 现在 命令 里 。 由 此 引出 的 副作用 是 ， 如 果 只 想 修 改 列 的 属性 ， 而 不 是 列 名 ， 
那 就 要 连续 两 次 写 出 同一 个 列 名 。 可 以 查看 前 面 例子 的 author 列 来 了 解 这 是 如 何 影响 命令 的 。Hive 
文 持 基本 和 复杂 的 数据 类 型 。 在 Hive 里 复杂 类 型 表示 为 映射 表 、 数 组 或 结构 。 前 面 例 子 里 ， 列 被 修 
改 为 存储 数组 , 数组 元 素 需 要 额外 的 类 型 定义 , TE author 列 的 例子 中 , ARRAY 里 包含 STRING 类 型 。 

下 面 ， 假 设想 要 存储 短 故 事 、 杂 志 等 除 书 籍 以 外 的 出 版 物 ， 就 可 能 考虑 用 published contents 
代 符 原来 的 表 名 。 改 表 和 名 可 以 这 样 做 : 
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$ ALTER TABLE books RENAME TO published_contents; 


hive examples.txt 


对 published_contents 执行 DESCRIBE TABLE 命令 ， 输 出 如 下 : 


. hive» DESCRIBE published contents; 
OK 

isbn int 

title string 

author array<string> multi-valued 
category string 

Time taken: 0.136 seconds 


hive examples.txt 





很 明显 ， 再 对 books 执行 DESCRIBE TABLE 会 返回 错误 ， 


$ hive> DESCRIBE books; 
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.gl.exec.DDLTask 


hive examples.txt 


下 面 再 介绍 一 个 更 完整 的 样 例 来 展示 Hive 的 查询 能 力 。 因 为 published contents 和 
users 表 在 本 草 接 下 来 的 部 分 中 可 能 已 经 没 用 了 ， 所 以 删除 它们 如 下 : 


DROP TABLE published contents; 
DROP TABLE users; 


12.2 回 到 电影 评分 


第 6 前 里 ,我 们 学 习 了 如 何 查 询 NoSQL 存储 的 内 容 。 那 草 用 到 了 免费 公开 的 电影 评分 数据 
来 演示 NoSQL， 特 别 是 MongoDB 的 查询 机 制 。 现 在 让 我 们 重新 用 Hive 来 处 理 这 个 数据 集 。 继 
续 之 前 回顾 一 下 第 6 草 的 例子 可 能 会 有 所 帮助 。 

可 以 用 下 面 的 命令 下 载 包 含 超过 100 万 条 评分 的 MovieLens 数据 集 : 

curl -O http://www.grouplens.org/system/files/million-ml-data.tar  0.gz 

解压 缩 得 到 下 面 的 文件 : 

L] README 

Q movies.dat 


L] ratings.dat 
QU users.dat 


ratings.dat 文件 包含 评分 数据 ， 每 行 一 条 评分 记录 。 评 分 记录 格式 是 这 样 的 : 


UserID::MovieID::Rating::Timestampoe 














A MovieLens 数据 集 里 的 评分 、 电 影 和 用 户 数据 用 : :分 割 。 用 Hive 加 载 器 
根据 这 个 分 隔 符 解析 加 载 数 据 时 会 遇 到 麻烦 。 所 以 我 选择 用 # 蔡 换 整 个 文件 的 
| 所 有 ::。 就 是 用 Vi 打开 文件 ， 然 后 替换 所 有 出 现 的 : :分 隔 符 ， 命 令 如 下 : | 
:SSs/::/4/g 
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修改 完 分 隔 符 后 将 其 保存 到 新 文件 中 , 每 个 文件 后 面 加 上 .hash_delimited, 
这 样 就 有 了 三 个 新 文件 : 

D ratings.dat.hash delimited 

L] movied.dat.hash delimited 

L] users.dat.hash delimited 


我 用 新 文件 作 数 据 源 ， 原 来 的 .dat 文件 保持 不 动 。 





要 把 评分 数据 文件 加 载 到 同样 结构 的 Hive 表 中 ， 先 得 创建 同样 结构 的 Hive X: 


hive» CREATE TABLE ratings ( 
userid INT, 

movieid INT, 

rating INT, 

tstamp STRING) 

ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '#' 


V Y VY VY NOM 


> STORED AS TEXTPILE: 
OK 
Time taken: 0.169 seconds 


hive movielens.txt 


Hive 包含 的 工具 支持 用 LOAD DATA 命令 从 文件 中 加 载 数据 。 源 可 以 是 本 地 文件 系统 或 者 
HDFS, 命令 如 下 : 

LOAD DATA LOCAL INPATH «'path/to/flat/file'» OVERWRITE INTO TABLE «table name»; 

加 载 时 不 会 执行 任何 验证 。 因 此 开发 者 要 确保 文件 的 数据 格式 匹配 表 结 构 。 语 法 文 持 指定 本 
地 文件 系统 或 HDFS。 基 本 上 ， 在 LOAD DATA 后 面 声 明 LOCAL 会 指定 源 是 本 地 文件 系统 。 不 包 
含 LOCAL 则 意味 着 数据 在 HDFS 上。 如果 文件 在 HDFS 上 ,数据 就 只 是 拷贝 到 Hive 的 HDFS 命 
名 空间 里 , 执行 的 是 HDFS 移动 命令 ， 所 以 它 比 从 本 地 文件 系统 加 载 数 据 要 快 多 了 。 assay 
令 还 允许 履 写 数据 或 者 将 其 追加 到 已 有 表 中 。 命令 中 存在 OVERWRITE 和 不 存在 OVERWRITE 分 
别 指 履 写 和 追加 。 

我 们 已 经 下 载 了 MovieLen 数据 。 再 准备 一 份 捞 贝 ， 用 # 号 替换 抒 分 隔 符 : :。 然 后 将 准备 好 的 
数据 加 载 到 Hive 的 HDFS 命名 空间 中 ， 加 载 命令 如 下 : 


hive» LOAD DATA LOCAL INPATH '/path/to/ratings.dat.hash delimited' 
> OVERWRITE INTO TABLE ratings; 

Copying data from file:/path/to/ratings.dat.hash delimited 

Loading data to table ratings 

OK 

Time taken: 0.803 seconds 





























hive movielens.txt 


MEA Hive 表 的 评分 记录 超过 了 100 万 条 。 可 以 用 你 所 熟悉 的 SELECT COUNT 确认 一 下 : 
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hive» SELECT COUNT(*) FROM ratings; 
Total MapReduce jobs - 1 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
In order to change the average load for a reducer (in bytes): 
set hive.exec.reducers.bytes.per.reducer-«number- 
In order to limit the maximum number of reducers: 
set hive.exec.reducers.max-«number-» 
In order to set a constant number of reducers: 
set mapred.reduce.tasks-«number» 
Starting Job = job 201102211022 0012, Tracking URL = 
http://localhost:50030/jobdetails.jsp?Jjobid-Jjob 201102211022. 0012 
Kill Command = /Users/tshanky/Applications/hadoop/bin/../bin/hadoop job - 
Dmapred.job.tracker-localhost:9001 -kill job 201102211022. 0012 
2011-02-21 15:36:50,627 Stage-1 map = 0$, reduce = 0$ 
2011-02-21 15:36:56,819 Stage-1 map = 100%, reduce = 0$ 
2011-02-21 15:37:01,921 Stage-1 map = 100%, reduce = 100% 
Ended Job = job 201102211022. 0012 
OK 
1000209 
Time taken: 21.355 seconds 





hive movielens.txt 


输出 确认 表 里 的 记录 超过 了 100 万 条 。 查 询 机 制 确 认 : Æ Hive H SQL 计数 的 老 方 法 还 是 管 
用 的 。 在 计数 的 例子 里 ， 我 特地 把 SELECT count 所 有 控制 台 输 出 都 包括 进来 ， 以 便 提示 你 注 
意 以 下 一 些 重要 的 地 方 。 

D Hive 操作 翻译 成 MapReduce 任务 。 

O Hive 操作 的 延迟 很 高 。 总 共 耗 费 21.355 秒 来 执行 计数 。 立 即 重 跑 也 不 会 缩短 耗 时 。 再 跑 

一 次 的 耗 时 大 致 相同 ， 因 为 不 存在 查询 缓存 机 制 。 

Hive 支持 非常 全 面 的 过 滤 和 聚合 查询 。 你 可 以 用 WHERE 子 句 来 过 滤 数 据 。 结 果 也 可 以 使 用 
GROUP BY 分 组 。DISTINCT 参数 可 以 帮助 列 出 不 重复 的 值 。 两 个 表 可 以 用 JoIN 操作 来 合并 。 
此 外 还 可 以 编写 目 定 义 脚 本 来 处 理 数据 ， 并 将 其 传人 map 和 reduce RŽ 

为 了 进一步 深入 了 解 Hive 的 能 力 和 它 强 大 的 查询 机 制 ， 我 们 把 MovieLens 数据 里 的 电影 和 
用 户 数据 也 装 人 对 应 的 表 中 ， 这 会 为 探索 Hive 的 功能 提供 一 个 绝 佳 的 样 例 集 。 电 影 数据 集 的 
行 格 式 是 MovieID::Title::Genres。 其 中 MovieID 是 整数 , Title 是 字符 串 , Genres 也 是 字符 串 。 
Genres 字符 串 包括 多 个 值 ， 用 管道 符 间 隔 。 我 们 先 创 建 movies X: 






























和 评分 数据 一 样 ，movies.dat 里 原本 的 分 隔 符 : WAR T Ho 


hive» CREATE TABLE movies( 


> movieid INT, 

» title STRING, 

» genres STRING) 

> ROW FORMAT DELIMITED 
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> FIELDS TERMINATED BY '£' 
> STORED AS TEXTFILE; 

OK 

Time taken: 0.075 seconds 


hive movielens.txt 


加 载 movies 表 数 据 如 下 : 


hive» LOAD DATA LOCAL INPATH '/path/to/movies.dat.hash delimited' 
> OVERWRITE INTO TABLE movies; 


CPP genres 包含 多 个 值 ， 例 如 这 样 : Animation|Children’s|Comedy。 因此 这 个 数 
据 存储 为 ARRAY 而 非 STRING 可 能 更 好 。 存 储 成 ARRAY 更 方便 在 查询 参数 中 使 用 这 些 值 。Hive 
可 以 接受 集合 和 映射 表 的 分 隔 符 参数 ， 所 以 能 很 容易 地 分 割 genres 并 存储 。 修 改 后 的 CREATE 
TABLE 和 LOAD DATA 命令 如 下 : 


hive» CREATE TABLE movies 2 1{ 

movieid INT, 

title STRING, 

genres ARRAY«STRING») 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '#' 
COLLECTION ITEMS TERMINATED BY a 
STORED AS TEXTFELLE; 











V V Y V NV YY OM 


OK 

Time taken: 0.037 seconds 

hive> LOAD DATA LOCAL INPATH '/path/to/movies.dat.hash delimited' 
> OVERWRITE INTO TABLE movies 2; 

Copying data from file:/path/to/movies.dat.hash delimited 

Loading data to table movies 2 

OK 

Time taken: 0.121 seconds 


hive movielens.txt 


加 载 完 数据 以 后 , 用 sELET 打印 出 一 些 记 录 ， 用 LIMIT 限制 结果 集 为 五 条 记录 : 


hive» SELECT * FROM movies 2 LIMIT 5; 


OK 

1 Toy Story (1995) ["Animation", "Children's", "Comedy" ] 
2 Jumanji (1995) ["Adventure","Children's","Fantasy": 
3 Grumpier Old Men (1995) [ "Comedy" , "Romance" ] 

4 Waiting to Exhale (1995) [ "Comedy" , "Drama" ] 

5 Father of the Bride Part II (1995) [ "Comedy" ] 


Time taken: 0.103 seconds 


hive movielens.txt 





MovieLens 的 第 3 个 数据 集 是 users.aat。 其 中 每 行 的 格式 如 下 :UserID: :Gender: :Age:: 
Occupation: :Zip-code。 下面 是 一 行 样 例 : 


1]::F::1::10::48067 


性 别 ( Gender )、 年 龄 ( Age ) 和 职业 (Occupation ) 都 是 离散 值 。 性 别 是 男 或 女 ， 分 别 表示 
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^F gt n] ELS SR PR 





围 是 开 区 间 。 


L0: 
L1: 
L2: 
L3: 
Ll 4: 
u 5: 


COOOOOOO DO 
二 


口 
© 





BAVER IFEA ATF o 


other or not specified 





academic/educator 
artist 
clerical/admin 
college/grad student 


customer service 


: doctor/health care 

: executive/managerial 
: farmer 

: homemaker 

: K-12 student 

: lawyer 

: programmer 

: retired 

: Sales/marketing 

: Scientist 

: Self-employed 

: technician/engineer 
: tradesman/craftsman 
: unemployed 

Ll 20: 
存储 职业 的 字符 串 而 不 是 数 信 可 能 更 好 , 因为 这 样 的 话 , 浏览 数据 时 就 更 容易 理解 其 


writer 





数 和 区 间 最 小 值 ， 所 有 年 龄 都 四 舍 五 人 到 最 近 
职业 有 下 面 这 20 个 可 能 的 值 : 
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斤 的 年 份 里 ， 且 范 


5 中 的 合 


义 。 要 实现 这 一 点 ， 可 以 通过 数据 加 载 操 作 的 关联 脚本 实现 。Hive 对 map 和 reduce PAZ s du] 
插 拨 的 外 部 脚本 。 对 map 和 reduce 图 数 插入 外 部 脚本 跟 在 Hive 表 之 间 相 互 复 制 数 据 有 关 ， 如 
图 12-1 所 示 。 


为 了 实际 看 到 外 部 脚本 的 效 宋 ， 





首先 创建 users 表 并 载 人 数据 。 创 建 users 表 命 令 如 下 : 


hive> 


VY V V VY YY YY ON 


CREATE TABLE users(í 
userid INT, 

gender STRING, 

age INT, 

occupation INT, 

zipcode STRING) 

ROW FORMAT DELIMITED 
FIELDS TERMINATED BY 'i' 
STORED AS TEXTFILE; 
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特别 是 将 users REOS ENFIFRAR, 


hive movielens.txt 
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Hive 源 表 





外 部 脚本 









m Reduce kA 








外 部 脚本 





Hive 目 标 表 





图 12-1 
加 载 数据 到 表 中 如 下 : 


hive» LOAD DATA LOCAL INPATH '/path/to/users.dat.hash delimited' 
> OVERWRITE INTO TABLE users; 


下 面 创 建 第 2 个 users R users. 2, 然后 将 users 表 中 的 数据 灌 进 第 2 个 表 里 。 灌 数据 的 
过 程 中 , 利用 外 部 脚本 occupation_mapper .py 把 职业 的 整数 值 映射 成 对 应 的 字符 串 值 ,然后 
把 字符 串 灌 进 users_2。 数 据 转换 代码 如 下 : 


$ hive> CREATE TABLE users 2( 
userid INT, 

gender STRING, 

age INT, 

occupation STRING, 

zipcode STRING) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY 'i' 

STORED AS TEXTFILE; 


VV Y YV Y WV V V 


OK 
Time taken: 0.359 seconds 
hive> add FILE 
/Users/tshanky/workspace/hadoop_workspace/hive_workspace/occupation_mapper.py; 
hive> INSERT OVERWRITE TABLE users 2 

> SELECT 

> TRANSFORM (userid, gender, age, occupation, zipcode) 
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> USING 'python occupation mapper.py' 
> AS (userid, gender, age, occupation str, zipcode) 
> FROM users; 


hive movielens.txt 


occupation, mapper.py 脚本 如 下 : 


occupation dict = { 0: "other or not specified", 
* 1:  "academic/educator", 

"artist", 

3 "clerical/admin", 

4 "college/grad student", 

5: "customer service", 

6 "doctor/health care", 

7 "executive/managerial", 

8: "farmer", 

9: "homemaker", 

10: "K-12 student", 

11: "lawyer", 

12: "programmer", 

13: "retired", 

14:  "sales/marketing", 

15: "scientist", 

16: "self-employed", 

17:  "technician/engineer", 

18:  "tradesman/craftsman", 

19: "unemployed", 

20: "writer" 


j 


for line in sys.stdin: 
line = line.strip() 
userid, gender, age, occupation, zipcode = line.split('s9') 
occupation str - occupation map[occupation] 
print 'i£'.join([userid, gender, age, occupation str, zipcode]j 


occupation mapper.py 
脚本 含义 非常 清楚 ， 用 职业 代号 查找 occupation dict 字典 ,将 users 表 里 每 个 职业 代 


写 蔡 换 成 了 对 应 的 字符 串 值 。 
数据 准备 好 以 后 ， 就 可 以 使 用 亲切 的 SQL 来 查询 了 。 


12.3 ZYH SQL 


SQL 有 许多 很 好 的 特性 ， 其 中 用 wHERE TAEZ En pee EE T s 
本 节 你 将 会 看 到 Hive 是 如 何 支持 WHERE 子 句 的 。 
首先 ， 从 movies 表 中 任 取 5 部 电影 。 可 以 用 LIMIT 限制 只 取 S 条 记录 : 


$ SELECT * FROM movies LIMIT 5; 




















hive movielens.txt 
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在 我 这 儿 5 条 记录 分 别 是 : 


1 Toy Story (1995) Animation |Children's|Comedy 
2 Jumanji (1995) Adventure |Children's|Fantasy 
3 Grumpier Old Men (1995) Comedy | Romance 

4 Waiting to Exhale (1995) Comedy | Drama 

5 Father of the Bride Part II (1995) Comedy 





要 使 用 HiveQL (Hive 查询 语言 ) 列 出 所 有 与 Toy Stery(1995) ( 电影 ID 为 1) 的 评分 ， 可 以 


查询 如 下 : 


hive» SELECT * FROM ratings 
> WHERE movieid = 1; 


hive movielens.txt 


电影 ID 是 数字 ， 要 计算 所 有 ID 小 于 10 的 电影 的 评分 记录 总 数 ， 可 以 用 HiveQL 如 下 : 


hive» SELECT COUNT(*) FROM ratings 
> WHERE movieid < 10; 


hive movielens.txt 


MapReduce 任务 的 输出 是 5290, 
要 找 出 有 多 少 用 户 对 电影 Toy Story (1995) 给 出 了 5 分 评价 ， 可 以 查询 如 下 : 


hive» SELECT COUNT(*) FROM ratings 
> WHERE movieid = 1 and rating = 5; 


hive movielens.txt 


这 个 例子 展示 了 在 WERE 子 句 中 使 用 超过 1 个 条 件 的 情况 。 在 SELECT 语句 中 可 以 使 用 








DISTINCT 来 获取 唯一 值 ， 答 认 是 返回 重复 值 。 





Hive 中 没有 用 来 支持 模糊 匹配 的 LIKE。 不 过 SELECT 语句 支持 在 WHERE 子 句 中 结合 列 名 使 


用 正则 表达 式 。 要 找 出 所 有 影 族 名 以 Toy 开头 的 电影 ， 可 以 这 样 查询 : 


hive» SELECT title FROM movies 
> WHERE title = "^Toy-'; 


hive movielens.txt 


注意 正则 表达 式 声 明 在 反 括 号 里 。 这 里 的 正则 表达 式 针 从 Java 正则 表达 式 语法 。 正 则 表达 





式 还 可 以 用 来 指定 返回 特定 列 。 例 如 ， 可 以 只 返回 那些 以 字符 ID 结尾 的 列 ， 像 这 样 : 


hive» SELECT '*«(id)' FROM ratings 
> WHERE movieid = 1; 


hive movielens.txt 


K ratings 包含 电影 的 评分 值 。 评 分 值 可 以 是 1 到 5 之 间 的 任意 数字 。 如 打 想 找 出 电影 Toy 





Story(1995) (movieid = 1) 不 同 评分 的 个 数 ， 可 以 用 GROUP BY 查询 如 下 : 
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hive» SELECT ratings.rating, COUNT (ratings.rating; 
E » FROM ratings 
> WHERE movieid = 1 
> GROUP BY ratings.rating; 


hive movielens.txt 


Un 


820 
Time taken: 24.908 seconds 


-SAMEERA RAKA, FEU count, sum 和 average， 只 要 所 有 操作 都 针对 同一 
列 即 可 。 同 一 个 查询 里 不 能 在 多 个 列 上 执行 聚合 吨 数 。 
要 在 map 层面 上 执行 聚合 ， 可 以 设置 hive.map .aggt 为 true 然后 运行 查询 : 


set hive.map.aggr-true; 
SELECT COUNT(*) FROM ratings; 


HiveQL 还 文 持 用 ORDER BY 对 结果 集 按 升序 或 降序 排列 。 要 获取 movies 表 里 的 所 有 记录 
JH movieid 降序 排列 可 以 这 样 查询 : 
hive» SELECT * FROM movies 
(D) > ORDER BY movieid DESC; 


hive movielens.txt 


Hive 还 有 另外 一 个 排序 工具 SORT BY， 与 ORDER BY 相似 之 处 是 它 也 对 记录 按 升序 或 降序 
排列 。 与 ORDER BY 不 同 的 是 ，SORT BY 在 reducer 层 面 上 实施 排序 。 这 意味 肴 最 终 的 结果 可 能 
只 是 部 分 有 序 。 同 一 个 reducer 上 所 有 记录 会 整体 排序 , 但 是 多 个 reducer 的 记录 在 一 起 就 不 是 这 
EET. 

Hive 文 持 按 虚拟 列 对 数据 集 分 区 。 可 以 用 DISTRIBUTE BY 把 不 同 分 区 的 数据 发 到 不 同 的 
reducer 上 。 分 发 到 不 同 reducer 上 的 数据 可 以 在 reducer 层面 上 排序 。DISTRIBUTE BY 和 ORDER 
BY 可 以 简写 成 CLUSTER BY. 

对 那些 熟悉 RDBMS 和 SQL， 又 很 想 探 索 Hadoop 大 数据 ， 还 希望 能 使 用 熟悉 工具 的 开发 者 
而 言 ，HiveQL 的 类 SQL 语法 非常 友好 。 探 索 Hive 的 SQL 开发 者 很 快 就 会 开始 盼望 这 个 有 力 的 
工具 : SQL 连接 。Hive 甚至 在 这 一 点 上 也 不 会 让 人 失望 。HiveQL 支持 连接 。 

















12.4 HiveQL 连接 


Hive 文 持 内 连接 、 外 连接 和 左 外 连接 。 要 获取 电影 评分 和 影片 名 称 ， 可 以 连接 ratings X 
FI movies 表 ， 查 询 如 下 : 
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hive» SELECT ratings.userid, ratings.rating, ratings.tstamp, movies.title 
> FROM ratings JOIN movies 
> ON (ratings.movieid = movies.movieid) 


> LIMIT 5; 
输出 如 下 : 
376 4 980620359 Toy Story (1995) 
1207 4 974845574 Toy Story (1995) 
28 3 978985309 Toy Story (1995) 
1.9.3 4 1025569964 Toy Story (1995) 
19055 5 974953210 Toy Story (1995; 





Time taken: 48.933 seconds 
连接 不 限于 两 张 表 ,可 以 更 多 。 要 获取 电影 评分 、 影 片 名 称 和 用 户 性 别 〈 对 电影 给 出 评分 的 
人 的 性 别 )， 可 以 连接 ratings, movies 和 users R, AWU F: 


hive» SELECT ratings.userid, ratings.rating, ratings.tstamp, movies.title, 
users.gender 
> FROM ratings JOIN movies ON (ratings.movieid = movies.movieid) 
> JOIN users ON (ratings.userid = users.userid) 
> LIMIT 5; 


输出 如 下 : 


3 978300760 Wallace & Gromit: The Best of Aardman Animation (1996) F 
978824195  Schindler's List (1993) F 

978301968 My Fair Lady (1964) F 

978301398 Fargo (1996) F 

978824268 Aladdin (1992) F 

Time taken: 84.785 seconds 


数据 是 有 序 的 ， 所 以 会 先 接 受到 所 有 女性 (F) 相关 的 数据 。 如 果 想 只 获取 男性 用 户 记 录 ， 
可 以 修改 查询 增加 wHERE 子 句 如 下 : 


hive» SELECT ratings.userid, ratings.rating, ratings.tstamp, movies.title, 
users.gender 

> FROM ratings JOIN movies ON (ratings.movieid = movies.movieid) 

> JOIN users ON (ratings.userid = users.userid) 

> WHERE users.gender = 'M' 





ÁÍDi5xmpbnmnpbnmnm 
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> LIMIT. 5; 
输出 如 下 : 
2 5 978298625 Doctor Zhivago (1965) M 
2 3 978299046 Children of a Lesser God (1986) M 
2 4 978299200 Kramer Vs. Kramer (1979) M 
2 4 978299861 Enemy of the State (1998) M 
2 5 3978298813 Driving Miss Daisy (1989) M 


Time taken: 80.769 seconds 

Hive 还 支持 更 多 的 类 SQL 功能 ， 包 括 UNION 和 子 查询 。 举 个 例子 ， 可 以 用 UNION 操作 合 
并 两 个 结 末 集 如 下 : 

select statement UNION ALL select statement UNION ALL select statement ... 


进一步 查询 并 过 滤 SELECT 语句 合并 的 结果 ， 可 能 的 SELECT 语句 像 下 面 这 样 : 
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SELECT * 
FROM ( 
select statement 
UNION ALL 
select statement 
) unionResult 


Hive 还 文 持 FROM 子 句 里 的 查询 。 比 如 要 获取 所 有 用 户 ， 他 们 为 超过 15 部 电影 给 出 5 分 的 
最 好 评分 : 
hive> SELECT user id, rating count 
> FROM (SELECT ratings.userid as user id, COUNT(ratings.rating) as 
rating count 
- FROM ratings 
WHERE ratings.rating - 5 


> 
> GROUP BY ratings.userid ) top raters 
> WHERE rating count > 15; 





除了 已 经 演示 过 的 部 分 , 还 有 很 多 与 Hive 及 其 查询 语言 有 关 的 内 容 。 不 过 在 这 里 画 上 句号 ， 
做 个 总 结 可 能 更 好 。 从 本 章 介绍 的 内 容 可 以 看 出 ，Hive QL 与 SQL 类 似 ， 有 助 于 那些 刚 开始 用 
NoSQL 的 开发 者 填补 感觉 上 的 空白 。Hive 提供 了 足够 好 的 抽象 ， 使 得 开发 者 能 够 很 容易 地 进行 
大 数据 处 理 。 

结束 本 章 之 前 ,为 了 完整 起 见 还 需要 介绍 一 些 内 容 。 首 先 简 短 地 介绍 一 下 计划 解释 ， 它 有 助 
于 理解 查询 背后 的 MapReducec 然后 用 一 个 小 例子 来 介绍 数据 分 区 。 


12.4.1 计划 解释 


绝 大 部 分 RDBMS 都 包含 一 个 用 来 解释 查询 细 方 的 工具 。 它们 通常 会 详 述 这 些 方面 : 索引 使 
用 情况 、 访 问 到 的 记录 、 每 个 步 又 的 耗 时 等 。Hadoop 是 利用 MapReduce 进行 分 布 式 大 规模 处 理 
的 批 处 理 系 统 。Hive 基于 Hadoop 并 利用 MapReduce, Hive 里 的 计划 解释 可 以 揭示 出 查询 背后 
的 MapReduceo 

一 个 人 简单 的 例子 可 能 是 下 面 这 样 的 : 


hive» EXPLAIN SELECT COUNT(*) FROM ratings 
> WHERE movieid = l and rating = 5; 




















OK 
ABSTRACT SYNTAX TREE: 
(TOK QUERY (TOK FROM (TOK TABREF ratings) ) 
(TOR INSERT (TOK DESTINATION (TOK DIR TOK TMP FILE)! 
(TOK SELECT (TOK SELEXPR (TOK FUNCTIONSTAR COUNT))]) 
(TOR WHERE (and (= (TOK TABLE OR COL movieid) 1) 
(sS [TOR TABLE OR COL rating) 5)3233J 
STAGE DEPENDENCIES: 
Stage-1 is a root stage 





Stage-0 is a root stage 


STAGE PLANS: 
Stage: Stage-1 
Map Reduce 
Alias -» Map Operator Tree: 
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ratings 
TableScan 
alias: ratings 
Filter Operator 
predicate: 
expr: ((movieid = 1) and (rating = 5)) 
type: boolean 
Filter Operator 
predicate: 
expr: ((movieid = 1) and (rating = 5)) 
type: boolean 
Select Operator 

Group By Operator 

aggregations: 
expr: count() 
bucketGroup: false 
mode: hash 
outputColumnNames: | colO 
Reduce Output Operator 
sort order: 


tag: -1 
value expressions: 
expr: colo 


type: bigint 
Reduce Operator Tree: 
Group By Operator 
aggregations: 
expr: count(VALUE. col0) 
bucketGroup: false 
mode: mergepartial 
outputColumnNames: | col0 
Select Operator 
expressions: 
expr: |col0 
type: bigint 
outputColumnuNames: | colO 
File Output Operator 
compressed: false 
GlobalTablerd: 0 
table: 
input format: org.apache.hadoop.mapred.TextlInputFormat 
output format: 
org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat 


Stage: Stage-0 


Fetch Operator 
limit: -1 


Time taken: 0.093 seconds 


如 果 还 需要 有 关 物 理 文件 的 信息 ， 可 以 在 EXPLAIN 和 查询 之 间 加 上 EXTENDED。 下 面 介 绍 
一 个 数据 分 区 的 简单 例子 。 
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12.4.2 ”分 区 表 


表 分 区 可 以 将 数据 分 到 多 个 命名 空间 中 去 ， 并 基于 命名 空间 标识 符 对 数据 进行 过 滤 和 查询 。 
比方 说 , 假设 分 析 师 相信 评分 会 受到 用 户 提 交 评 分 时 间 的 影响 ,因此 想 将 评分 划 为 两 部 分 , 一 份 
包括 上 晚上 8 点 到 早上 8 点 间 的 评分 , 男 一 份 包 括 剩 下 时 间 段 的 评分 。 此 时 就 可 以 创建 虚拟 列 来 标 
识 出 这 个 分 区 ， 并 依 此 保存 数据 。 

这 样 就 可 以 按 这 些 命名 空间 进行 过 滤 、 搜 索 和 聚 类 了 。 








12.5 小结 


本 章 简 要 描绘 了 Hive 的 强大 和 灵活 性 。 展 示 了 SQL 如 何 与 Hadoop 结合 起 来 提供 一 个 引 人 
注目 的 数据 分 析 工 具 ， 一 个 传统 RDBMS 的 开发 者 和 新 兴 大 数据 开拓 者 都 可 以 使 用 的 工具 。 

Hive 由 Facebook 开发 ,并 开源 作为 Hadoop 的 一 个 子 项 目 。 它 现在 已 经 成 为 项 级 项 目 ，, 并 继 
续 处 于 快速 发 展 中 ,填补 着 SQL 和 NoSQL 之 间 的 空 日 。 在 Hive 开源 之 前 ， 有 和 争议 认为 Hadoop 
只 对 那些 需要 访问 “大 数据 ”的 团队 的 部 分 开发 者 有 用 。 有 人 说 Hive 让 NoSQL 这 个 词 不 再 有 效 
果 。 可 以 说 Hive 恰好 对 此 类 质疑 作出 了 强 有 力 的 声明 : NoSQL 其 实 是 Not Only SQL 的 缩写 。 
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JdJ5P 
综 览 数据 库 内 部 


口 了 解 MongoDB, Membase, Hypertable, Apache Cassandra 和 Berkeley DB 的 内 部 
D 了解 一 些 NoSQL 产品 内 部 架构 
D 理解 内 部 设计 选择 


pA 习 一 种 产品 /工具 至 少 涉及 下 面 三 个 维度 : 
OQ 理解 语法 语义 
口 通过 尝试 和 使 用 来 学 习 
OQ 理解 内 部 构造 ， 知 道 底层 发 生 了 什么 
前 面 草 节 里 ， 我 们 学 习 了 很 多 数据 库 的 使 用 ， 特 别 是 MongoDB, Redis, CouchDB, HBase 
和 Cassandra。 这 许多 例子 展示 了 语法 ,也 解释 了 概念 ， 动手 尝试 这 些 例子 对 学 习 NoSQL 产品 有 
很 好 的 帮助 。 之 前 我 们 侦 尔 会 了 解 一 些 底层 。 本 间 我 们 将 深入 浏览 NoSQL 产品 的 架构 和 内 部 结 
构 。 和 其 他 曹 蔬 一样， 我 会 选择 一 组 不 同类 型 的 NoSQL 产品 ， 本 章 选 择 这 些 产 品 的 原因 列举 一 
部 分 如 下 : 
Q MongoDB, 本 书 的 很 多 章节 中 都 讲 到 了 MongoDB, , 也 介绍 过 MongoDB 内 部 的 许多 方面 ， 
更 多 介绍 能 帮助 你 全 面 了 解 这 个 产品 。 
口 Membase。 但 几 提 到 基于 内 存 ， 同 时 还 提供 磁盘 持久 化 的 键 / 值 存储 ，Redis 就 是 典范 。 
Redis 的 功能 和 内 部 结构 在 多 个 章节 里 说 明 过 。 本 章 将 跳 过 Redis, NAAMA EP 
力 的 产品 Membase。Membase 由 于 其 显著 的 性 能 特点 得 到 广泛 使 用 ， 由 于 采用 了 
Memcached 协议 ， 它 能 够 成 为 Memcached 的 蔡 代 品 。 
口 Hypertable。 提 到 有 序列 族 存 储 , 我 们 就 会 说 起 HBase。HBase 非常 类 似 Google Bigtable, 
而 且 很 受 欢 迎 ， 但 还 有 一 些 产品 也 构建 在 同样 的 模型 上 。 这 些 产品 包括 Hyperable 和 
Cloudata。Cloudata 是 更 新 的 开源 产品 ， 而 Hypertable 则 是 更 完善 的 选择 。 许 多 大 型 互联 
网 应 用 和 服务 都 部 署 Hypertable 作为 可 扩展 的 数据 存储 .Hypertable 用 C++ 写成 ,与 HBase 
相 比 ， 其 性 能 更 好 。 所 以 本 章 会 介绍 Hypertable 的 许多 方面 。 
ū Apache Cassandra, Google Bigtable 和 Amazon Dynamo 是 构建 大 规模 NoSQL 存储 的 两 
种 流行 范本 。Apache Cassandra 博采众长 ,结合 了 这 二 者 。 我 们 讨论 过 Apache Cassandra, 
它 的 快速 写 能 力也 非 党 出色。 本 章 介 绍 将 Cassandra 的 一 些 组 成 结构 。 
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口 Berkeley DB. Berkeley DB 是 非常 强大 的 键 / 值 存 储 , 一 些 前 泊 NoSQL 产品 , 例如 Amazon 
Dynamo, LinkedIn, Voldemort 和 GenieDB 用 它 做 底层 存储 。 
本 草 并 非 面面俱到 , 也 并 非 适用 于 所 有 产品 。 不 过 我 希望 这 些 内 容 能 引发 你 的 兴趣 ， 去 进 一 
步 了 解 NoSQL 产品 的 结构 ,去 阅读 NoSQL 产品 的 代码 , 从 使 用 这 些 产 品 中 受益 , 并 且 有 机 会 为 
NoSQL 做 出 自己 的 贡献 ， 使 它们 变 得 更 好 。 另 一 方面 ， 本章 提 到 的 一 些 NoSQL 产品 在 其 他 章节 
只 是 一 笔 市 过 , 有 些 甚 至 根本 不 会 再 提 到 , 通过 这 一 章 的 介绍 , 希望 能 激发 你 探索 这 部 分 NoSQL 
产品 的 兴趣 。 























13.1 MongoDB 内 部 


目前 为 止 ， 我 们 已 经 介绍 过 了 MongoDB 的 命令 和 使 用 ， 了 解 了 它 的 存储 和 查询 机 制 ， 并 在 
这 个 基础 上 学 习 了 有 关 复 制 的 内 容 ， 还 学 习 了 存储 格式 BSON EA s Am, REANA 
MongoDB 的 一 些 重要 内 容 ， 这 些 内 容 是 以 你 之 前 的 了 解 为 基础 的 。 

MongoDB HM RP im- AST, APPARENS RDBMS 中 也 很 常见 。 客 户 并 -服务 可 
以 构 包 合 一 个 服务 融和 多 个 连接 到 服务 天 上 的 客户 端 。 如 宁 使 用 分 片 和 复制 , 则 用 多 个 服务 胡来 
代 符 单个 服务 从 。 无 论 是 单个 节点 还 是 采用 分 片 和 复制 ,数据 乔 是 在 客户 端 和 服务 俘 之 间 ， 以 及 
节点 之 间 ， 来 回 传送 。 


























BSON 规范 

MongoDB 将 其 文档 编码 为 类 JSON 的 二 进 制 格式 BSON， 这 个 格式 第 2 草 里 介绍 过 。 在 
此 简要 复习 一 下 JSON 的 一 些 特性 。 

一 个 BSON 文档 是 零 或 更 多 个 二 进 制 键 / 值 对 组 成 的 集合 ， 其 中 基本 二 进 制 类 型 如 下 。 

Q Byte: 155755 

Dint32: 4A 3 

D int64: 8 字 节 

口 double: 8 $$ 

int32 和 int64 分 别 对 应 32 位 和 64 位 有 符号 整数 。Double 对 应 64 4 IEEE 754 浮 点 值 。 下 
面 是 一 个 文档 的 例子 : 

(acquc ond c y 

这 个 文档 表示 为 如 下 的 BSON 格式 : 

"\x16\x00\x00\x00\x02hello\x00 \x06\x00\x00\x00world\x00\x00" 

这 里 展示 的 BSON 符号 使 用 了 我 们 熟悉 的 C 的 16 进 制 表 示 。 如 果 想 把 二 进 制 形式 和 文档 


对 应 起 来 ， 其 实 是 这 样 的 : 
"{ and }—"\x16\x00\x00\x00 and \x00 
"hello":—x02hello\x00 
"world"—\x06\x00\x00\x00world\x00 


阅读 更 多 有 关 BSON 规范 的 内 容 请 参阅 http://bsonspec.org/。 


a 
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13.1.1 MongoDB 传 输 协 议 


客户 端 通过 基于 TCP/IP 的 套 接 字 连接 与 MongoDB 服务 器 通讯 。 使 用 的 传输 协议 是 一 种 简 
单 的 请 求 - 啊 应 式 套 接 字 协议 。 传 输 协议 头 部 和 主体 都 用 BSON 编码 , 消息 采用 小 端 字 节 序 (little 
endian )， 和 BSON 一 样 。 

在 标准 的 请 求 - 啊 应 模型 中 ， 客 户 端 发 送 请 求 给 服务 器 ， 服 务 右 对 请 求 作出 啊 应 。 从 传输 协 
以 来 看 ， 请 求 包含 报头 和 请 求 主体 ， 响 应 则 包含 报头 和 啊 应 主体 。 请 求 和 响应 的 报头 格式 相近 ， 
消息 主体 格式 却 各 有 不 同 。 图 13-1 展示 了 客户 端 和 MongoDB 服务 融 之 间 基 本 的 请 求 - 啊 应 。 





























请 求 : 
报头 ,主体 


My: 
报头 ， 主 体 





图 13-1 
MongoDB 传输 协 以 文 持 很 多 操作 ， 如 下 面 这 些 。 


RESERVED 也 是 操作 ， 原 来 用 于 OP_GET BY 0ID。 没有 把 它 列 进来 是 因 





为 用 得 不 多 。 


Q OP INSERT (代码 : 2002) : 插入 文档 ，CRUD 之 “创建 ”操作 。 





CRUD 分 别 表 示 创 建 ( Create )、 读 取 ( Read )、 更 新 ( Update ) 和 删除 ( Delete ), 
是 标准 的 数据 管理 操作 ， 许 多 与 数据 交互 的 系统 和 接口 都 支持 CRUD 操作 。 






Q OP UPDATE (代码 : 2001) : 更 新 文档 ，CRUD 中 的 更 新 操作 。 

DOP QUERY (代码 : 2004) : 查询 集合 文档 ，CRUD 中 的 读 取 操作 。 

Q OP GET MORE 代码 : 2005) : 获取 同一 个 查询 的 更 多 数据 。 查 询 的 啊 应 结果 可 以 包 
含 大 量 文档 ， 为 了 提高 性 能 ， 同 时 避免 发 送 整个 文档 集 ， 数 据 库 用 游标 支持 增 量 获取 记 
录 。OP_GET_MORE 便于 通过 游标 获取 更 多 的 文档 。 

Q OP REPLY (代码 : 1) : 应 答 客 户 端 请 求 ， 响 应 oP_QUERY 和 OP_GET_MORE 操作 。 

Q OP_KILL_CURSORS (代码 : 2007) : 关闭 游标 。 

Q OP DELETE (代码 : 2006) : 删除 文档 。 

Q OP MSG (代码 : 10000 : 通用 消息 命令 。 

所 有 请 求 啊 应 都 包含 报头 ， 标 准 的 报头 包含 下 列 属 性 。 

Q messageLlength: 消息 长 度 ， 单 位 是 字 节 ， 包 括 保 存 消 息 长 度 所 需 的 4 字 节 。 
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O requestlD: 唯一 的 消息 标识 符 ， 由 发 起 操作 的 客户 端 或 服务 需 生 成 。 

O responseTo: 数据 库 对 opP_QUERY 和 opP_GET_MORE 的 响应 中 , 将 客户 端 请 求 的 requestID 
存储 在 responseTo 里 ， 这 样 客户 端 就 能 匹配 请 求 和 啊 应 。 

O opCode: 操作 代码 ， 支 持 的 操作 列 在 本 市 前 文中 。 

下面 了 解 几 个 简单 而 且 常 见 的 请 求 - 啊 应 场景 。 


13.1.2 插入 文档 
创建 和 插入 新 文档 时 ， 客 户 端 通过 请 求 发 送 oP INSERT 操作 ， 其 中 包括 以 下 内 容 。 


口 消息 头 : 标准 消息 头 结 构 , 包括 messageLength、requestID、responseTo 和 opCode。 
口 1 个 int32 整数 值 : 0 (保留 将 来 使 用 )。 
口 1 个 字符 串 : 完整 的 集合 名 。 例 如 数据 库 aDatabase 的 集合 acollection 显示 为 
aDatabase.aCollections 
O 1 个 数组 : 数组 包含 1 个 或 多 个 需要 被 插入 集合 的 文档 。 
数据 库 处 理 插入 文档 的 请 求 ， 可 以 通过 getLastError 命令 检查 请 求 结果 。 然 而 ， 对 插 和 人 
文档 的 请 求 ， 数 据 库 不 会 显 式 啊 应 。 





























13.1.3 ”查询 集合 


查询 时 ， 客 户 端 通 过 请 求 发 送 OP_QUERY 操作 ， 数 据 库 返 回 的 响应 中 包含 相关 文档 集合 。 

客户 端 发 送 的 OP_QUERY 消息 包括 以 下 内 容 。 

口 消息 头 : 标准 消息 头 结构 ,包括 messageLength requestID, responseTo 和 opCode。 

口 一 个 int32 整数 值 : 标志 位 ， 表 示 查 询 选 项 。 标 志 定 义 了 游标 、 结 果 流 和 部 分 结果 ( 如 果 
有 分 片 宕 机 了 ) 的 属性 。 例 如 返回 数据 后 游标 是 否 关 闭 ， 或 者 游标 空闲 一 段 时 间 后 是 否 
超时 。 

口 一 个 字符 串 : 完整 集合 名 。 

口 一 个 int32 整数 值 ， 跳 过 的 文档 数量 。 

口 又 一 个 int32 整数 值 : 要 返回 的 文档 数量 ,数据 库 会 对 应 接受 文档 的 请 求 以 一 个 OP_REPLY 
操作 作为 响应。 如 果 文 档 总 数 大 于 返回 的 文档 数 ， 通 常会 返回 一 个 游标 。 受 驱动 及 其 限 
制 结果 集 的 能 力 有 影响 ， 这 个 属性 的 取 值 会 不 同 。 

口 BSON 格式 的 查询 文档 : 被 搜索 的 文档 要 匹配 的 查询 条 件 。 

口 一 个 文档 : 要 返回 的 字段 ， 表 现 为 BSON 格式 。 

对 客户 并 oP QUERY 请 求 ，MongoDB 服务 右 会 返回 oP_REPLY， 其 内 容 包 括 下 面部 分 。 

口 消息 头 : 客户 问 请 求 和 服务 右 啊 应 的 消 奶 头 非 第 相似 。 男 外 前 面 提 到 过 ，oP_REPLY 的 
responseTo 属性 会 包含 客户 端 请 求 OP QUERY 的 requestIDo 

口 一 个 int32 整数 值 : WW poss, 38 4 DGEIETETRUA GA MUR, RESA ORDRES E n f 
游标 标识 符 的 信息 。 























图 灵 社 区 会 员 DanyLee HF 尊重 版 权 


220 第 13 章 综 览 数据 库 内 部 


口 一 个 int64: 游标 标识 符 ， 客 户 端 通过 标识 符 可 以 获取 更 多 文档 。 

口 一 个 int32 整数 值 : 游标 起 始点 。 

口 又 一 个 int32 整数 值 : 返回 的 文档 的 数量 。 

口 一 个 数组 : 查询 结果 文档 。 

这 只 是 传输 协议 的 一 部 分 。 更 多 有 关 传 输 协 议 的 内 容 请 参阅 : www.mongodb.org/display/ 
DOCS/Mongo+Wire+Protocol。 也 可 以 浏览 MongoDB 源 代 码 ， 地 址 : https://github.com/mongodb。 

总 之 ,文档 全 部 存在 服务 如 端 。 客 户 问 通过 服务 如 来 执行 文档 插入 、 更 新 和 文档 。 客 户 端 和 
服务 需 之 间 通 信使 用 高 效 的 二 进 制 格式 和 传输 协议 。 下 面谈 谈 存 储 架 构 。 





13.1.4 MongoDB 数 据 库 文件 


MongoDB 把 数据 库 和 集合 的 数据 存储 在 文件 中 ,文件 放 在 mongod --dbpath 选项 指定 路 
íZ Fo dbpath 默认 是 /data/db。MongoDB 文档 存储 成 文件 时 如 循 一 定 的 结构 。 下 面 完 介绍 如 
何 查 询 集合 的 存储 属性 ， 然 后 介绍 文件 分 配方 式 的 细 太 。 
通过 Mongo shell 可 以 查询 集合 存储 属性 。 启 动 mongod, 用 命令 行程 序 连 上 服务 器 。 然 后 可 
以 像 下 面 这 样 查询 集合 大 小 : 
32 > db.movies.dataSize(); 
327280 








mongodb data size.txt 


这 个 例子 用 了 第 6 章 的 movies 集合 ,文件 movies .dat 包含 电影 评分 数据 集中 的 电影 信息 ， 
dt 171 308 宇 节 ， 但 是 对 应 的 集合 大 很 多 ， 因 为 MongoDB 格式 还 要 另外 存储 元 数据 。 返 回 的 大 
小 不 是 磁盘 上 实际 存储 的 大 小 , 只 是 数据 的 大 小 。 为 集合 分 配 的 存储 空间 可 能 包含 未 被 使 用 的 空 
间 。 要 获取 集合 实际 存储 的 大 小 ， 查 询 如 下 : 


à > db.movies.storageSize(); 








500480 
mongodb data size.txt 
实际 存储 大 小 为 500 480 字 节 ， 相 比 之 下 数据 就 小 多 了 ， 只 有 327 280 字 节 。 这 个 集合 可 能 
还 有 索引 。 要 查询 集合 的 总 大 小 ， 包 括 数据 、 未 分 配 的 存储 和 索引 ， 可 以 这 样 查询 : 


> db.movies.totalSize(); 
C 860928 











mongodb data size.txt 


为 了 确认 三 个 不 同 的 值 能 对 得 上 , meth eR Lr HEB IR]. AM movies fT HTHOSR 
引 的 集合 名 。 要 找 出 movies 集合 索引 的 全 称 ， 可 以 像 下 面 这 样 查 询 系统 中 所 有 命名 空间 : 


V > db.system.namespaces.find() 





mongodb data size.txt 
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我 的 MongoDB 实例 里 有 很 多 集合 ， 列 表 很 长 ， 和 这 个 例子 有 关 的 信息 是 这 些 : 


( "name" ; "mydb.movies" } 
( "name" : "mydb.movies.S$ id " } 


mydb.movies 是 集合 本 刁 ， 另 一 个 mydb.movies.$ id 3 是 id 上 有 索引 的 集合 。 要 查看 索引 
集合 的 数据 大 小 、 存 储 大 小 和 总 大 小 ,查询 如 下 : 


T » db.movies.$ id .dataSize(); 





139264 

> db.movies.$ id .storageSize(); 
655360 

> db.movies.$ id .totalSize(); 
655360 


mongodb data size.txt 


也 可 以 通过 集合 本 吴 获 取 索 引 数 据 大 小 : 


四， > db.movies.totalIndexSize(): 
360448 


mongodb data size.txt 


storageSize 和 totallIndexSize 加 起 来 正好 是 集合 的 totalsize。 在 集合 上 使 用 
validate 方法 能 够 得 到 更 多 与 大 小 有 关 的 信息 。 在 movies 集合 上 执行 validate 如 下 : 


> db.movies.validate(); 
2 { 
"ns" : "mydb.movies’, 
"result" : "\nvalidate\n  firstExtent:0:51a800 ns:mydb.movies\n 
lastExtent:0:558b00 ns:mydb.movies\n # extents:4\n 
datasize?:327280 nrecords?:3883 lastExtentSize:376832\n 
padding:1An first extent:An 1oc:0:51a800 xnext:0:53b£00 
xprev:null^An ngdiag:mydb.moviesWn Size:5888 
firstRecord:0:51a8b0 lastRecord:0:51be90MAn 3883 objects found, 
nob4j:3883WAn 389408 bytes data w/headersWMn 327280 bytes 
data wout/headers\n  deletedList: 11000000000010000004n 
deleted: n: 3 size: 110368Mn nIndexes:2\n 
mydb.movies.$ id  keys:3883^n mydb.movies.$titlie 1 keys:3883Wn", 








LU ok" : l, 
"valid" : true, 
"lastExtentSize" : 376832 


mongodb data size.txt 


除 占用 空间 以 外 ， 命 令 validate 还 提供 了 更 多 的 信息 ， 包 括 记 录 、 头 信息 、 扩 展 块 大 小 
(extent size ) 和 键 。 
MongoDB 将 数据 库 及 其 集合 存储 在 文件 系统 的 文件 中 。 为 了 理解 为 存储 文件 分 配 的 大 小 ， 
我 们 来 列 出 它们 和 它们 的 大 小 。 在 Linux, Unix, Mac OS X 或 其 他 任何 Unix 变种 上 ， 可 以 列 出 
大 小 如 下 : 
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ls -skl -/data/db 
total 8549376 
mongod.lock 
65536 mydb.0 
131072 mydb. 
262144 mydb. 
524288 mydb. 
1048576 mydb. 
2096128 mydb. 
2096128 mydb. 
2096128 mydb. 
16384 mydb.ns 
65536 test.0 
131072 test.1 
16384 test.ns 


cC 


-] O3 Ul Be w M Lp 


mongodb data size.txt 


这 是 从 我 的 /data/db 目录 得 到 的 输出 ， 你 的 会 有 所 不 同 。 不 过 数据 库 文 件 大 小 的 模式 应 该 
不 会 有 区 别 。 这 些 文件 对 应 一 个 数据 库 ， 每 个 数据 库 有 一 个 命名 空间 文件 和 多 个 数据 存储 文件 。 
不 同 数据 库 的 命名 空间 文件 大 小 相同 :在 64 位 Snow Leopard Mac OSX 上 是 16384KB 或 者 16MB。 
数据 文件 从 0 开始 按 顺 序 编号 。 对 mydb， 模 式 是 下 面 这 样 的 。 

口 mydb.0 是 65536KB 或 者 64MB- 

D mydb.1 Æ mydb. 0 大 小 的 2 倍 ，131 072KB 或 者 128MB。 

D mydb.2,mydb.3,mydb.4,mydb.5 分 别 是 256MB.、512MB、1024MB( 1GB ) 和 2047MB 

(2GB )。 

O mydb.6, mydb.7 3535 mydb.5 大 小 相等 ， 为 2GB. 

MongoDB 为 存储 分 配 的 块 逐 渐 增 大 ， 上 默认 的 最 大 值 是 2GB， 到 这 个 程度 以 后 ， 每 个 文件 就 
都 跟 最 大 块 一 样 大 。MongoDB 通过 采用 这 种 算法 分 配 存 储 文件 ， 最 小 化 未 使 用 空间 和 碎片 。 

MongoDB 还 有 很 多 细微 之 处 ， 特 别 是 在 内 存 管理 和 分 片上 上， 这 些 都 留 给 你 来 探索。 本 书 涵 
盖 很 多 产品 ， 要 介绍 每 一 种 产品 的 每 一 个 细 克 惑 超出 了 本 书 的 范围 。 

下 面 介 绍 Membase 架构 的 部 分 基础 内 容 。 











13.2 Membase 架构 


Membase 支持 Memcached 协议 ， 所 以 使 用 了 Memcached 的 应 用 可 以 很 容易 地 将 Membase 
纳入 它们 的 应 用 程序 栈 。 但 Membase 还 添加 了 持久 化 和 复制 等 Memcached 不 文 持 的 能 

每 个 Membase $ Rir — N ns server 实例 ,， 它 是 节点 督 管 者 ,管理 春节 点 上 的 活动 。 客 
F mH Memcached 协议 或 REST 接 口 与 ns_server 交互 。 REST 接口 是 借助 Menelaus 组 件 实现 
HJ, Menelaus 包括 一 个 健壮 的 jQuery JE, 该 jQuery 层 将 REST WHE P RR SUI A AR. H 
Memcached 协议 访问 Membase IJ Ze P? sili 3 Moxi 代理 访问 底层 数据 .Moxi 作 为 中 介 在 vBuckets 
的 帮助 下 总 能 将 客户 端 路 由 到 正确 的 地 方 。 要 理解 vBuckets 如 何 正 确 地 路 由 信息 ， 需 要 了 解 
vBuckets 使 用 的 一 致 性 哈 希 。 
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图 13-2 演示 了 基于 vBuckets 路 由 的 本 质 。 


图 13-2 


如 图 13-2 所 示 ,客户 端 请 求 由 键 所 标识 的 数据 时 ,请 求 会 被 映射 到 vBuckets 上 ,然后 vBuckets 
再 映射 到 服务 硕 上 。 哈 希 图 数 把 键 映 射 到 vBuckets 上 ， 此 外 还 文 持 vBuckets 数量 发 生变 化 时 重 
新 平衡 。vBuckets 目 己 通过 查询 表 有 映射 到 服务 关上 。 所 以 vBuckets 到 服务 善 的 映射 相对 固定 , HE 
新 分 配 vBuckets 时 物理 存储 不 会 移动 。 
Membase 由 下 列 组 件 组 成 。 
O ns server: oU EI. 
CQ Memcached 和 Membase 引擎 : Membase 构建 在 Memcached 上 面 。 网络 和 协议 支持 层 都 直 
接 取 自 Memcached， 并 包含 在 Membase 中 。Membase 引擎 还 文 持 一 些 附 加 功能 ， 例 如 异 
步 持久 化 和 远程 定位 套数 宇 宇 母 协 议 〈Telocator Alphanumeric Protocol, TAP )。 
口 vBucketMigrator: 根据 ns server 局 动 vbucketmigrator 进程 的 方式 , 在 方 点 间 复 制 
或 传输 数据 。 
口 Moxi: Memcached 代理 ， 支 持 通 过 vBucket 对 客户 端 请 求 路 由 。 
Membase 还 有 很 多 内 容 , 希望 通过 本 市 你 已 经 理解 了 其 中 最 基础 的 部 分 。 更 多 有 关 Membase 
染 构 和 性 能 的 内 容 会 在 后 面 划 市 中 陆续 介绍 。 
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Membase 现在 是 CouchBase 的 一 部 分 , 这 是 Membase 和 CouchDB 合并 的 结果 。 后 续 的 版 本 
里 ， 这 个 合并 很 可 能 会 给 Membase 架构 市 来 巨大 的 影响 。 





13.3 ”Hypertable 底层 


Hypertable 是 HBase 的 高 性 能 奉 代 物 。Hvypertable 的 基本 特性 与 HBase 非常 类 似 ，HBase X. 
类 似 Google Bigtable, Hypertable 其 实 算 不 上 新 ， 它 和 HBase 的 启动 时 间 差 不 多 都 是 2007 年 。 
Hypertable 运行 在 HDFS 这 样 的 分 布 式 文件 系统 上 。 

在 HBase 里 ， 数 据 以 列 族 为 中 心 ， 按 行 键 排序 存储 。 每 个 数据 单元 维护 多 个 数据 版 本 。 
Hypertable 文 持 类 似 的 思路 。Hypertable 里 所 有 版 本 信息 妃 加 到 行 刍 上， 版 本 信息 由 时 间 惟 标识 ， 
每 个 列 族 每 个 行 键 所 有 版 本 的 所 有 数据 都 按 顺 序 存储 。 

Hypertable 提供 以 列 族 为 中 心 的 数据 存储 ， 但 是 其 物理 存储 特性 还 受 访 问 组 ( access group ) 
的 影响 .Hypertable 的 访问 组 提供 一 种 方式 ,能 将 相关 列 的 数据 物理 上 存储 在 一 起 。 在 传统 RDBMS 
中 ， 数 据 按 行 排 序 ， 也 如 此 存储 。 也 就 是 说 ， 两 个 连续 行 的 数据 通常 也 存储 在 相 邻 位 置 上 。 在 列 
族 存 储 中 ,物理 上 存储 在 一 起 的 是 两 列 数 据 。 有 了 Hypertable 访问 组 ， 就 具备 了 将 一 或 多 列 放 在 
一 个 组 里 的 灵活 性 。 所 有 列 都 在 同一 个 访问 组 里 就 类 似 传统 RDBMS, 保持 每 列 都 与 其 他 列 隔离 
就 类 似 面 回 列 族 数据 库 。 


13.3.1 正则 表达 式 支 持 


Hypertable 查询 可 以 用 正则 表达 式 过 小数 据 ， 能 按 行 键 、 列 名 和 值 进行 匹配 。Hypertable 对 
正则 表达 式 的 支持 是 用 Google 的 开源 正则 表达 式 引 擎 RE2 来 实现 的 。 更 多 有 关 RE2 的 细 广 请 访 
|h]: http://code.google.com/p/re2/。RE2 是 一 个 高 速 、 安 全 和 线程 友好 的 正则 表达 式 引 擎 ，C++ 实 
现 。RE2 为 Google 许多 著名 产品 例如 Bigtable 和 Sawzall 提供 了 正则 表达 式 支 持 。 

RE2 语 法 支持 大 部 分 Perl JER EMRI Perl Compatible Regular Expression, PCRE ) PERL, 
以 及 VIM 文 持 的 大 部 分 表达 式 。 可 以 在 这 里 访问 到 所 文 持 的 语法 列表 : http://code.google.conyp/ 
re2/wiki/Syntax 

一 些 Hypertable 开发 者 所 进行 的 测试 ( http://blog.hypertable.com/?p=103 ) 表明 RE2 的 性 能 
约 在 java.util.regex.Pattern 的 3 到 50 傍 之 间 。 这 些 测 试 是 在 110MB 包含 450 万 唯一 ID 
的 数据 上 进行 的 。 测试 结果 受 数据 集 和 数据 量 不 同 的 影响 会 有 所 变化 , 不 过 结果 还 是 能 说 明 RE2 
高 速 高 效 的 事实 。 





















































13.3.2” 布 隆 过 滤 顺 

Metar (Bloom Filter) 是 一 种 概率 数据 结构 ， 用 于 测试 元 系 是 否 为 集合 成 员 。 可 以 把 
1B FELIS AANE m 位 的 数组 。 空 的 布 隆 过 滤 带 所 有 m MAEAEA E 0。 现在 假设 有 集合 元 素 
ao、D、c， 用 大 个 哈 硕 图 数 将 它们 映射 到 布 隆 过 沽 天 上 ， 即 每 个 元 系 通 过 丰 个 不 同 的 哈 希 函数 映 
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STAAR PETIERE k T DB. Es JUERJGB SER s PROCU IDUT] 81 m 位 数组 的 某 个 特定 位 置 上 , 则 将 那 
个 位 置 的 值 设置 成 1s PARTER SEIL: RAUS, 可 能 会 被 映射 到 布 隆 过 滤器 的 同一 个 位 置 上 。 

假如 现在 要 测试 元 素 w 是 否 属于 集合 , 则 要 将 其 传递 给 个 蛤 希 函数 , 输出 结 采 映射 到 布 隆 
过 泪 硕 的 数组 上 。 有 映射 到 的 位 置 ， 只 要 任何 一 个 信 为 0， 那么 元 素 就 不 是 集合 成 员 。 如 采 所 有 位 
置 的 信者 是 1， 则 有 两 种 可 能 ， 要 么 元 素 属 于 集合 ， 要 么 只 是 恰好 映射 到 因 其 他 元 素 设置 为 1 的 
位 置 上 。 所 以 误 报 是 可 能 的 ， 不 过 假 阴 性 是 不 可 能 的 。 

更 多 有 关 布 隆 过 滤 带 的 内 容 ( 用 PERL 解释 ) 可 以 访问 : www.perl.com/pub/2004/04/08/bloom 
filters.html; 




















13.4 Apache Cassandra 








Apache Cassandra 非常 流行 ， 但 它 同 时 又 是 一 种 恶名 昭著 的 NoSQL 数据 库 。 本 书 前 面 通 过 
一 些 使 用 Cassandra 的 例子 介绍 了 该 存储 的 核心 思想 。 本 节 将 学 习 Cassandra 的 核心 架构 , 以 理解 
其 工作 机 制 。 


13.4.1 AN ea RD 


大 部 分 数据 库 , 包括 大 部 分 知名 NoSQL 存储 , TibieTze 3:- Aio SECUS I] 7 FCRI o BI 
对 每 个 集合 ， 写 提交 到 主 和 点 ， 然 后 再 复制 到 从 节点 。 从 和 点 增强 了 该 而 非 写 的 可 扩展 性 。 

Cassandra 抛弃 主 - 从 模式 而 选择 使 用 点 对 点 模型 。 因 此 不 存在 单一 主 方 点 ， 所 有 市 点 都 是 潜 
在 的 主 方 点 。 这 使 得 写 和 读 都 变 得 高 度 可 扩展 , 甚至 允许 在 部 分 节点 失效 的 情况 下 其 他 节点 继续 
提供 功能 。 不 过 高 可 扩展 性 也 是 有 代价 的 , 在 这 里 就 是 区 协 强 一 致 性 。 点 对 点 模型 于 从 弱 一 致 性 
模型 。 




















13.4.2 ”基于 Gossip 和 Anti-entropy 


由 于 Cassandra 采用 点 对 点 可 扩展 和 最 终 一 致 性 模型 ， 所 以 建立 一 个 协议 来 实现 节点 间 通 信 
和 节点 检测 故障 显得 尤为 重要 。Cassandra 依靠 闲话 协议 ( gossip-based protocol ) 来 进行 节点 间 通 
言 。 闲 话 协议 ,“ 技 ”如 其 名 , 借用 了 人 与 人 之 间 闲 话 的 概念 。 对 人 来 说 ， 闲 话 是 任意 选择 一 个 其 
他 市 点 (人 ) 来 发 送 消 息 。 而 在 Cassandra 中 ， 闲 话 更 系统 化 ， 由 Gossiper 类 定时 触发 。 市 点 
[1] Gossiper 注册 自己 ,这样 内 话 在 网 络 中 传播 时 节点 就 能 收 到 通知 。 闲 话 主 要 用 于 大 型 的 分 布 式 
系统 ， 并 不 是 特别 可 徘 。 在 Cassandra F, Gossiper 类 会 跟踪 传播 闲话 的 节点 。 

按 流 程 说 ， 每 次 定时 需 驱 动 的 Gossiper 行 为 部 要 求 Gossiper 随机 选择 一 个 节点 来 发 送 消息 。 
这 个 消息 叫 GossipDigestSyncMessage。 如 果 接 受 节 点 活着 ， 就 返回 一 个 确认 信息 给 Gossiper。 然 
后 Gossiper 再 回应 :知道 了 ,这 样 就 完成 了 一 轮 办 话 ,如果 通信 过 程 中 ,三 步 都 成 功 了 , 则 Gossiper 
和 市 点 成 功 地 共享 了 状态 信息 。 如 果 中 间 有 失败 ， 则 说 明 厄 点 可 能 坏 挥 了 。 

为 了 检测 失败 ，Cassandra 使 用 了 一 种 算法 ， 叫 做 Phi Accrual Failure Detection。 这 种 检测 方 
法 把 市 点 死活 之 是 非 变 成 可 疑 程度 ,通过 心跳 检测 错误 的 传统 想法 现在 被 连续 评估 可 疑 程度 的 做 
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法 所 取代 。 

朵 话 能 保持 节点 同步 ， 修 复 暂 时 性 问题 。 更 严重 的 问题 则 是 通过 anti-entropy 算法 发 现 和 修 
复 。 这 一 过 程 中 ， 列 族 数据 通过 Merkle HERRA o Merkle 树 比较 邻居 节点 的 数据 ， 如 采 不 一 
致 ， 则 修复 节点 使 其 一 致 。 在 压缩 操作 中 ，Merkle 树 会 作为 快照 被 创建 出 来 。 

这 样 就 再 一 次 确认 了 :Cassandra 的 弱 一 致 性 可 能 使 得 它 需 要 借助 Quorum 来 避免 不 一 致 的 情 
况 发 生 。 

















13.4.3 ”快速 与 


Cassandra 的 写 速 度 极 快 ， 因 为 写 只 是 退 加 到 可 用 市 点 的 提交 日 志 ， 而 且 关 键 路 径 上 也 没有 
强加 上 锁 。 写 操作 分 两 部 分 , 一 是 写 人 提交 日 志保 证 持久 性 和 可 恢复 性 , 二 来 更 新 内 存 数据 结构 。 
只 有 在 号 入 提交 日 志 成 功 后 才 写 内 存 数据 结构 。 机 各 上 通常 会 专门 为 提交 日 志 准 备 人 磁盘 ,因为 所 
有 对 提 区 日 志 的 写 都 是 顺序 的 ,这样 能 最 大 化 人 磁盘 厨 吐 。 内 存 数据 结构 有 一 个 国 值 ， 是 基于 数据 
大 小 和 对 象 数量 计算 的 ， 如 末 内 存 数据 超过 了 国 值 ， 它 就 会 把 目 己 转 储 到 磁盘 上 。 

PUB RC BREUI, 同时 也 会 生成 驼 引 以 便 基 于 行 键 高 效 碍 询 。 这 些 索 引 跟 数据 一 起 持 
久 化 。 随 着 时 间 推 移 , 磁盘 上 多 出 很 多 这 样 的 日 志 , 后台 运行 的 合并 进程 会 将 不 同日 志 整 理 成 一 
个 。 这 种 压缩 过 程 在 SSTable 里 合并 数据 ，SSTable 是 底层 存储 格式 。 压 缩 过 程 还 会 执行 键 合理 
化 、 列 合并 、 删 除 打 上 删除 标记 的 数据 和 创建 新 索引 。 



































13.4.4 提示 移交 


写 操 作 执 行 过 程 中 ， 如 果 Cassandra 下 点 不 可 用 ， 那 么 发 送 到 该 节点 的 请 求 就 可 能 失败 。 如 
有 果 节 点 被 从 网 络 中 剥离 开 来 ， 写 操作 也 可 能 无 法 重新 人 处理。 为 了 处 理 这 些 情况 ，Cassandra 引入 
了 提示 移交 (hinted handoff) 的 概念 。 这 个 概念 最 好 通过 例子 来 说 明 ， 所 以 我 们 假设 网 络 中 有 两 
个 和 点 和 Y 现在 尝试 在 和 X 上 执行 写 操 作 ， 但 是 了 不 在 线 ， 于 是 将 写 操作 发 送 给 Y。 了 存储 信 
息 时 附 这 提示 说 ， 这 个 写本 来 是 给 和 的 ， 什 么 时 候 和 上线 了 ， 请 把 数据 发 给 它 。 

Basho Riak ( www.basho.com/products riak overview.php ) 是 另 一 个 受 Amazon Dynamo 启发 
的 数据 库 ， 它 也 利用 这 个 概念 协调 写 操 作 。 

除了 这 些 有 趣 的 ， 经 和 常 被 谈论 到 的 Cassandra 的 特性 和 底层 结构 外 ， 我 还 需要 提 一 点 ， 即 
Cassandra 建立 在 阶段 事件 驱动 架构 ( Staged Event-Driven Architecture, SEDA ) Eo 更 多 有 关 SEDA 
的 内 容 请 参阅 : www.eecs.harvard.edu/~mdw/proj/seda/。 

下 一 个 要 介绍 的 产品 是 非常 优秀 的 键 / 值 存储 Berkeley DB. Berkeley DB 是 众多 NoSQL 产品 
的 底层 存储 ， 而 Berkeley DB 本 喘 也 可 用 作 NoSQL 产品 。 

















13.5 Berkeley DB 


Berkeley DB Æ F7 — ARRA E, SC REATO E. 
O Berkeley DB: C 实现 的 键 / 值 存储 ， 是 最 原 汁 原味 的 版 本 。 
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O Berkeley DB Java 版 (Java 标准 版 ): Java 写 的 键 / 值 存储 ,可 以 很 容易 地 集成 到 Java 栈 里 。 
D Berkeley DB XML: C++ 编写 ， 这 个 版 本 封装 了 键 / 值 存 储 ， 使 其 行为 更 像 带 索引 的 优化 的 
XML 存储 系统 。 

Berkeley DB 又 称 BDB， 骨 子 里 是 键 / 值 存 储 。 虽 然 核 心 非常 简单 ， 但 是 BDB 支持 许多 不 同 
配置 。 比 如 可 以 配置 成 支持 并 发 非 阻 塞 访问 , 或 者 支持 事务 。 它 也 可 以 横 癌 扩展 ,成 为 高 可 用 的 
主 -从 副本 集群 。 

BDB 是 一 种 键 / 值 存储 ， 它 很 纯粹 ， 不 对 键 / 值 对 的 结构 作 任 何 假设 ， 因 此 很 容易 在 BDB 上 
建立 高 层 API、 查 询 和 建 模 抽象 ， 这 样 有 利于 快速 有 将 地 存储 特定 应 用 数据 ， 又 没有 将 其 转换 成 
抽象 数据 格式 的 开销 。 这 样 简单 优雅 的 设计 所 带 来 的 灵活 性 让 BDB 既 可 以 存储 结构 化 数据 ， 又 
可 以 存储 半 结 构 化 数据 。 

BDB 可 以 内 存 存 储 方式 运行 ， 保 存 小 量 数据 ， 也 可 以 配置 为 大 型 数据 存储 ， 带 一 个 内 存 绥 
存 。BDB 包含 叫做 环境 (enviornment) 的 高 层 抽 象 ， 借 助 它 ， 一 个 物理 安装 中 可 以 建立 多 个 数 
据 库 。 一 个 环境 可 以 有 多 个 数据 库 。 你 需要 先 打 开 环 境 ， 再 打开 数据 库 ， 才 能 向 其 中 写 人 数据 或 
从 中 读 出 数据 。 交 互 完成 后 应 关闭 数据 库 和 环境 以 优化 资源 使 用 。 数据 库 的 每 个 条 目 都 是 一 个 键 
/ 值 对 。 键 通常 是 唯一 的 ， 不 过 也 可 以 有 重复 。 值 通过 键 访问 。 获 取 的 值 可 以 更 新 并 存 回 数据 库 。 
多 个 值 可 以 用 游标 遇 历 。 游 标 文 持 过 历 集 合 ， 每 次 一 个 地 处 理 集合 元 素 。 态 外 BDB 也 文 持 事务 
和 并 发 访问 。 

键 / 值 对 里 的 键 几 乎 总 是 作 主 键 用 ， 主 键 有 索引 。 值 的 其 他 属性 可 以 用 作 次 级 索引 ， 次 级 索 
引 维护 在 单独 的 数据 库 里 。 因 此 存储 着 键 / 值 对 的 数据 库 有 时 也 称 为 主 数据 库 。 

BDB 运行 时 是 进程 内 数据 存储 ， 所 以 使 用 C. CH, CH, Java 或 者 脚本 语言 API 从 对 应 的 
程序 里 访问 BDB 时 ， 要 静态 或 者 动态 链接 之 。 


存储 配置 


键 / 值 对 可 以 被 存储 成 四 种 数据 结构 : B 树 、 哈 希 、 队 列 和 Recno。 

1. B 树 存储 

B 树 没 什么 可 介绍 的 ， 如 采 和 需要 复习 它 的 定义 ， 可 以 阅读 免费 提供 的 在 线 文档 : 
www.bluerwhite.org/btree/。 它 是 一 种 平衡 树 结构 ， 保 持 元 素 有 序 性 的 同时 还 文 持 快速 顺序 访问 、 
插入 和 删除 。 键 和 值 可 以 是 任意 数据 类 型 。BDB 里 B 树 还 支持 对 重复 值 的 访问 。 如 果 需 要 用 复 
Ads WEN SE, JE B 树 存储 是 很 好 的 选择 。 如 采访 问 模式 是 访问 连续 或 相 邻 记录 , 它 也 是 非 
TERETE. B 树 保存 大 量 元 数据 以 实现 很 高 的 执行 效率 。 绝 大 部 分 BDB 应 用 会 选择 B 树 存储 。 

2. 哈 布 存储 

与 了 B 树 类 似 ， 哈 硕 也 文 持 复杂 类 型 做 键 。 与 B 树 相 比 ， 哈 希 的 结构 更 线性 化 。BDB AIRA 
结构 也 文 持 重复 信 。 

尽管 B 树 和 哈 希 都 文 持 复杂 键 ， 但 在 数据 集 远 大 于 可 用 内 存 时 哈 希 通常 优 于 B 树 ， 因 为 B 
树 保 存 更 多 的 元 数据 ,内存 缓存 中 可 能 放 不 下 B 树 的 元 数据 。 极端 情况 下 需要 频繁 地 通过 文件 来 
获取 B 树 的 元 数据 和 实际 数据 ， 导 致 每 次 操作 触及 多 个 WO。 哈 希 的 访问 方法 能 最 小 化 访问 数据 
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记录 所 需 的 IO， 因 此 在 这 种 极 问 情 况 下 ， 可 能 比 B 树 性 能 好 一 些 。 

3. 队列 存储 

队列 是 一 系列 顺序 存储 的 定 长 记录 , 键 限 制 为 整数 类 型 的 逻辑 记录 扎 。 顺 序 仍 加 记录 可 使 得 
写 速 度 飞 快 。 如 果 你 对 Apache Cassandra 追加 日 志 的 写 速 度 印 象 深刻 ， 那 就 给 BDB 队列 访问 方 
法 一 个 机 会 , 你 绝 不 会 失望 。 这 种 配置 还 文 持 从 队列 头 部 高 效 地 旋 取 和 和 更新。 队列 还 文 持 行 级 锁 ， 
即便 是 在 并 发 处 理 情 况 下 也 能 保证 事务 完整 性 。 

4. Recno 存储 

Recno 与 队列 类 似 但 支持 变 长 记录 ， 和 队列 相同 的 是 Recno 键 也 限定 为 整数 。 

Zx E, 不 同 配置 允许 在 集合 中 存储 任意 数据 类 型 。 除 了 你 目 己 的 模型 外 , 没有 任何 其 他 固定 
的 结构 。 极 端 情况 是 一 个 集合 的 两 个 值 可 以 存储 完全 不 同 的 类 型 。 值 可 以 是 复杂 的 类 型 ， 这 些 类 
型 可 以 用 来 表示 JSON 文档 、 复 末 数 据 结构 或 者 结构 化 的 数据 集 。 实 际 上 的 唯一 限制 是 人 必须 能 
被 序列 化 为 字 市 数组 。 单 个 键 或 值 可 以 达到 4GB 大 小 。 

次 级 索引 人 允许 在 值 属 性 上 过 滤 。 主 数据 库 并 不 以 表格 形式 存储 数据 , 所 以 对 稀 玻 数据 集 而 言 ， 
不 存在 的 属性 也 不 会 存储 。 如 果 缺 乏 创 建 索引 用 的 属性 字段 ,次 级 索引 就 会 跳 过 所 有 记录 。 总 的 
来 说 ， 存 储 是 紧凑 高 效 的 。 



































13.6 小结 


本 章 只 介绍 了 一 些 数据 库 的 部 分 内 部 细 市 , 同样 的 思路 未 必 能 准确 适用 于 其 他 存储 。 对 染 构 
和 内 部 结构 的 了 解 可 以 在 多 个 不 同 层次 上 进行 从 概念 综 史 到 深入 代码 。 本 草 主 要 限定 在 概念 层 
次 上 ， 以 便于 所 有 人 阅读 。 不 过 本 章 应 该 赋 子 了 你 开始 目 己 探索 的 工具 和 知识 。 
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掌握 NoSOL 


«14 s 


Jt fÉ NoSQL 


本 章 内 容 

口 了解 NoSQL 产品 的 优 劣 势 

口 比较 NoSQL 产品 

O 根据 性 能 基准 评估 NoSQL 产品 





ANS NoSQL 数据 库 都 相似 , 它们 被 造 出 来 也 不 是 为 了 解决 同样 的 问题 , 因此 企图 通 
过 比较 从 中 选 出 最 好 的 很 可 能 会 徒 荔 无 功 。 不 过 ， 了 解 什 么 数据 库 更 适合 哪 种 情景 和 
上 下 文 非 常 重 要。 本章 介 绍 的 事实 和 意见 能 帮助 你 比较 各 种 NoSQL 产品 。 我 们 将 根据 功能 、 性 
能 和 基于 上 下 文 的 标准 对 NoSQL 数据 库 进 行 分 类 和 权衡 。 

NoSQL 的 演进 可 以 和 这 些 年 编程 语言 的 快速 发 展 相 提 并 论 。 多 种 编程 语言 让 我 们 能 用 正 硝 
的 语言 人 处理 正确 的 任务 , 因而 开发 者 的 简历 上 经 常 出 现 多 种 语言 。 开 发 者 使 用 多 种 编程 语言 常 比 
作 一 个 人 通晓 多 国语 言 , 或 语言 通 。 语 言 通 能 有 效 地 避免 缺少 某 种 语言 知识 市 来 的 障碍 。 类 似 地 ， 
采纳 多 种 编程 语言 称 为 多 语言 编程 。 多 霹 言 编程 币 被 看 作 是 聪明 的 编程 方式 ,因为 可 以 使 用 适当 
的 语言 处 理 手头 的 任务 。 同 样 ,， 很 明显 一 个 数据库 无 法 满足 各 种 需求 , 采用 多 种 数据 库 则 是 明智 
的 策略 。 知 过 和 使 用 多 种 数据 库 产 品 的 人 可 以 算是 数据 库 的 语言 通 。 

NoSQL 数据 库 有 许多 不 同形 式 ， 逻 辑 分 组 的 第 一 种 方式 是 按 功 能 。 通 并 来 说 ， 问 题 的 解决 
方案 很 容易 映射 到 所 需 的 功能 


14.1 比较 NoSQL 产品 


本 市 基于 下 列 功 能 特性 比较 各 种 NoSQL: 
口 可 扩展 性 

OQ 事务 完整 性 和 一 致 性 

a 数据 建 模 

口 查询 支持 

口 访问 和 接口 可 用 性 


14.1.1 可 扩展 性 
虽然 所 有 NoSQL 数据 库 虱 承诺 横向 可 扩展 ,但 它们 应 对 挑战 的 水 平 却 不 尽 相 同 。Bigtable 
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的 相似 产品 HBase 和 Hypertable 暂时 人 处 于 领先 位 置 ， 内 存 存储 (例如 Membase 或 Redis ) 和 文档 
数据 库 ( 例如 MongoDB 和 Couchcbase Server) 紧 随 其 后 。 它 们 之 间 的 差异 随 着 数据 量 的 增 大 而 
放大 ， 特 别 是 在 达到 PB 量 级 以 后 。 

前 面 几 章 里 , 我 们 深入 了 解 了 大 部 分 主流 NoSQL 数据 库 的 存储 架构 。Bigtable 类 产品 推动 了 
大 记录 和 大 集合 的 存储 。Bigtable 模型 支持 存储 大 量 的 列 和 海量 的 行 记录 。 数 据 可 以 是 稀 玖 的 ， 
即 很 多 列 没 有 数据 。 当 然 Bigtable 模型 不 会 浪费 空间 ， 没 有 值 的 单元 格 不 会 被 存储 。 











HBase 集群 中 列 和 行 的 数量 理论 上 没有 限制 。 列 族 的 数量 被 限定 为 大 约 
100 个 。 行 的 数量 可 以 不 断 增 加 ， 只 要 有 新 节点 保存 数据 就 行 。 列 的 个 数 很 少 
超过 几 百 个 。 处 理 数据 时 ， 太 多 的 列 会 带 来 逻辑 上 的 挑战 。 






Google 引领 了 以 列 族 为 中 心 的 数据 存储 的 变 章 ,并 用 它 存储 息 虫 市 回 家 的 不 断 增 长 的 网 络 索 
引 。 过 去 几 年 里 Web 在 无 限制 地 成 长 ，Google 需要 一 种 能 随 沦 引 增 长 而 增长 的 存储 ， 由 此 诞生 
了 Bigtable 和 其 他 相似 产品 ， 它 们 天 生 就 文 持 横向 扩展 ， 只 受 限 于 集群 便 件 数量 ， 因 而 不 能 衍生 
出 集群 中 新 的 节点 。 过 去 几 年 里 ，Google Bigtable 被 成 功 地 用 于 存储 和 访问 各 种 不 同类 型 的 海量 
数据 。 

HBase wiki 的 Powered By 页 面 ( http://wiki.apache.org/hadoop/Hbase/PoweredBy ) 罗列 了 许多 
HBase 用 户 。 这 些 用 户 清楚 地 说 明了 HBase 的 扩展 能 














下 面 段落 中 将 说 明 HBase 的 能 力 ， 而 同时 Hypertable ( 另 一 个 类 Google 
Bigtable 产品 ) 也 提供 了 同样 的 能 






Meetup ( www.meetup.com ) 是 一 个 很 流行 的 网 站 ,方便 了 用 户 组 和 兴趣 组 来 组 织 当 地 的 活 
动 及 会 议 。Meetup 2001 年 还 是 一 个 不 知名 的 小 站 ， 现 在 已 经 增长 到 在 100 个 国家 拥有 800 万 成 
员 、6.5 万 余 名 组 织 者 、8 万 多 meetup 组 和 每 周 5 万 场 会 议 ( http;//online.wsj.com/article/ 
SB10001424052748704170404575624733792905708.html )。Meetup 是 HBase 的 用 户 。 所 有 小 组 活 
JA AISA HBase 并 按 成 员 索 引 ， 成 员 的 目 定 义 feed 是 直接 从 HBase 里 提供 的 。 

Facebook 是 男 一 个 HBase 大 用 户 。Facebook Message 建 在 HBase 上 。2010 年 Facebook 是 互 
联网 的 头号 目标 网 站 。 它 已 经 发 展 了 超过 5$ 亿 活 跃 用 户 ( www.facebook.com/press/info.php? 
statistics )， 从 用 户 数 量 来 看 算是 世界 上 最 大 的 应 用 。Facebook Message 将 聊天 、 短 信和 邮件 集成 
起 来 。 每 个 月 有 数 千 亿 消息 通过 这 个 消息 基础 设施 发 送 。Facebook 工程 师 团 队 分 享 了 几 篇 他 们 在 
Facebook Message 基础 设施 上 使 用 HBase 的 笔记 ， 地 址 : www.facebook.com/notes/facebook- 
engineering/the-underlying-technology-of-messages/454991608919, 

在 扩展 方面 HBase 天 生 就 具备 一 些 优势 。HBase 支持 目 动 负载 平 衔 、 故 障 转移 、 压 缩 和 单 服 
务 带 多 分 片 。HBase 和 HDFS ( Hadoop 分 布 式 文件 系统 ) 配合 得 很 好 。 从 前 面 草 市 我 们 知道 ， 
HDFS 能 通过 复制 和 目 动 平衡 轻松 容纳 跨越 多 服务 大 的 大 文件 。 Facebook 选择 HBase 来 利用 这 些 
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功能 特性 。 从 他 们 服务 的 消息 和 用 户 的 数量 来 看 ，HBase 是 必需 的 。Facebook 工程 师 在 笔记 中 还 
提 到 基础 设施 中 的 消息 具备 徐 短 、 吻 变 、 临 时 的 特征 ， 而 且 旧 消息 很 少 再 访问 。 对 于 即时 查询 并 
不 重要 的 场景 来 说 ，HBase， 或 者 说 一 般 的 类 Bigtable 产品 特别 适合 。HBase 支持 查询 ,但 是 说 
到 查询 的 性 能 ， 它 并 不 能 作为 RDBMS REWER m. mM Google 应 用 服务 引擎 (GAE ) 这 样 
的 基础 设施 却 能 在 Bigtable 上 成 功 地 开放 出 数据 建 模 API， 并 支持 高 阶 查 询 。 更 多 有 关 查 询 的 信 
息 会 在 后 面 14.1.4 市 介绍 。 

所 以 如 条 需要 极端 扩展 性 的 话 ， 列 族 NoSQL 数据 库 似 乎 是 很 好 的 选择 。 但 是 这 类 数据 库 可 
能 并 非 所 有 系统 的 最 佳 选 择 ， 特 别 是 涉及 实时 事务 处 理 的 情况 。 如 果 事 务 完 整 性 非常 重要 ， 
RDBMS 和 NoSQL 相 比 和 常 弟 是 更 好 的 选择 。 如 果 能 接受 更 弦 的 一 至 性 ， 那 最 终 一 致 性 NoSQL f£ 
f, EEUN Cassandra 或 Riak 也 是 值得 考虑 的 。Amazon 已 经 证 明了 大 规模 电子 商务 也 许 能 用 最 终 
一 致 性 数据 存储 ， 不 过 Amazon 之 外 就 很 难 再 找到 此 模型 适用 的 例子 了 。 像 Cassandra 这 样 的 数 
JESUS f Amazon Dynamo 的 范式 ， 文 持 最 终 一 致 性 。Cassandra 承诺 了 快 得 不 可 思议 的 读 写 速 
度 。Cassandra 也 支持 类 Bigtable 的 列 族 数据 模型 。Amazon Dynamo 还 启发 了 Riak。 除 了 是 最 终 
一 致 性 存储 外 ，Riak 还 文 持 文档 存储 。Cassandra 和 Riak 的 横 回 扩展 能 力 都 不 销 ， 不 过 要 是 可 扩 
展 性 至 关 重 要 , 那 我 还 是 会 放弃 最 终 一 致 性 存储 ,转投 HBase 或 者 Hypertable 的 票 。 写 否 吐 和 延 
述 更 为 重要 的 场景 中 , 可 能 最 终 一 致 性 存储 比 列 族 按 序 存储 更 好 。 因 此 如 果 需 要 椰 和 癌 可 扩展 性 和 
KAWSANI, HAZE Cassandra 或 Riak。 不 过 这 种 情况 也 可 以 考虑 混合 末 略 ， 逻 辑 上 将 写 和 
读 、 分 析 分 开 来 ， 两 个 任务 各 用 不 同 的 数据 库 。 

如 条 大 量 数据 会 以 怀 人 的 快 季 夫 出 现 , 例如 交易 数据 或 广告 点 击 跟踪 数据 , 那么 单 徘 列 族 存 
储 无 法 提供 完整 的 解决 方案 。 在 这 些 存储 里 保存 大 量 增长 的 数据 ， 用 MapReduce 进行 批量 查询 
和 数据 挖掘 是 比较 审慎 的 做 法 , 不 过 你 可 能 还 需要 更 轻快 的 东西 ， 既 文 持 快速 写 ， 又 文 持 实时 处 
理 。 没 有 什么 比 在 内 存 里 处 理 数 据 更 快 的 了 ， 有 些 NoSQL 能 将 数据 保存 在 内 存 里 ， 可 用 容量 十 
满 后 再 刷 到 磁盘 上 ， 利 用 这 种 NoSQL 是 很 好 的 选择 。MongoDB 和 Redis 都 齐 循 这 一 策略 。 有 目前 
MongoDB 使 用 mmap 而 Redis 自 定义 从 内 存 到 磁盘 的 映射 。MongoDB 和 Redis 都 在 积极 调整 内 
存 映 射 特性 ， 它 们 还 在 继续 发 展 。 如 果 需 要 实时 数据 处 理 和 用 于 数据 挖掘 的 可 扩展 存储 ， 选 择 
MongoDB 或 Redis 搭 配 HBase 或 Hypertable 不 错 .Memcached 和 Membase 可 以 用 来 蔡 换 MongoDB 
或 Redis。Memcached 和 Membase 作为 高 速 组 存放 在 列 族 存储 前 面 , 对 它 是 很 好 的 补充 。 实 际 上 ， 
为 这 种 场景 在 基于 Hadoop 的 系统 上 高 效 使 用 Membase 也 有 先例 。 随 着 Membase 和 CouchDB 合 
并 ,很 可 能 会 出 现 同时 支持 以 高 速 绥 存 为 中 心 和 以 分 布 式 可 扩展 存储 为 中 心 的 功能 特性 的 
NoSQL 产品 。 

如 果 你 的 数据 需求 达到 了 Google 或 者 Facebook 的 级 别 ， 可 扩展 性 就 非常 重要 ， 尽 管 如 此 ， 
并 不 是 所 有 应 用 都 能 长 到 那么 大 。 对 那些 比 这 类 扩展 性 系统 小 得 多 的 应 用 来 说 , 可 伸缩 系统 可 能 
更 具 相 关 性 ,但 是 有 时 企图 让 软件 可 扩展 会 成 为 过 度 工程 。 一 定 要 避免 不 必要 的 复杂 性 。 

在 许多 系统 里 ， 数 据 完 整 性 和 事务 性 一 致 比 其 他 需求 都 更 重要 。NoSQL 能 够 用 于 这 类 系 
统 吗 ? 
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14.4.2 ”事务 完整 性 和 一 致 性 


事务 完整 性 只 和 数据 创建 、 修 改 、 更 新 及 删除 有 关 。 因 此 事务 完整 性 相关 问题 和 纯 数 据 仓库 
及 数据 挖掘 无 关 。 这 也 意味 看 以 批 处 理 为 中 心 的 、 基 于 Hadoop 的 数据 分 析 与 事务 性 需求 无 天 。 

许多 数据 ， 比 如 网 络 流量 日 志 、 社 交 网 络 状态 更 新 ( 包括 微 博 )、 广 告 点 击 、 道 路 交通 数据 、 
交易 数据 和 游戏 分 数 主要 ( 如 末 不 是 完全 ) 是 一 次 写 多 次 读 。 像 这 样 写 一 次 读 多 次 的 数据 对 事务 
的 需求 有 限 ， 甚 至 没有 。 

有 些 数据 虽然 已 更 新 和 删除 , 但 是 修改 通 稍 只 限于 单 记 录 而 非 数 据 集 的 东 个 范围 。 有 时 更 新 
非常 频繁 上 且 涉 及 范围 操作 。 如 末 范 围 操作 很 常见 而 且 需要 保持 更 新 的 一 致 性 , 那 RDBMS 才 是 最 
佳 选 择 。 如 果 单 个 条 目的 原子 性 已 然 足够 ， 那 么 列 族 数 据 库 、 文 档 数据 库 和 部 分 键 / 值 存储 都 可 
以 。 如 采 需 要 事务 完整 性 但 是 可 以 容纳 和 暂时 的 窗口 不 一 致 ， 最 终 一 致 性 也 是 一 种 选择 。 






































NoSQL 的 对 手 们 认为 非 关 系 型 健壮 数据 库 的 主要 弱点 是 缺少 ACID 支持 。 
不 过 ， 许 多 数据 只 需要 很 少 甚至 无 需 事 务 性 支持 。 这 样 的 数据 就 能 受益 于 
NoSQL 产品 可 扩展 的 、 优 雅 的 架构 。NoSQL 数据 库 使 用 MapReduce 进行 大 规 
模 并 行 处 理 的 能 力 能 够 帮助 有 效 地 处 理 和 挖 据 大 数据 。 切 勿 为 不 必要 的 事务 完 


整 性 而 烦恼 。 





HBase 和 Hypertable 提供 行 级 的 原子 更 新 及 一 致 性 状态 (在 Paxos 的 帮助 下 )。MongoDB fë 
供 文 档 级 别 的 原子 更 新 。 所 有 主 - 从 复制 模式 的 NoSQL 数据 库 都 隐 式 文 持 事务 完整 性 。 


14.1.3 ”数据 模型 


RDBMS 的 数据 建 模 方法 非常 一 致 。 数 据 模型 底层 是 关系 代数 ， 理 论 完备 且 已 标准 化 。 因 此 
数据 建 模 和 规范 化 的 方法 能 够 被 很 好 地 吸收 理解 并 形成 文档 。 在 NoSQL 世界 里 没有 这 样 标准 化 
的 完备 的 数据 模型 ， 这 是 因为 各 种 NoSQL 产品 的 架构 和 它们 想 解 决 的 问题 并 不 相同 。 

如 果 需 要 RDBMS 的 数据 模型 进行 存储 和 查询 ， 而且 任何 情况 下 都 无 法 跳 过 这 些 定义 ,那天 
HJH NoSQL, WE SQL 类 型 查询 又 能 接受 非 基 系 型 存储 模型 ， 还 是 有 一 些 NoSQL 可 以 选 
择 的 。 

像 MongoDB 这 样 的 文档 数据 库 提供 了 从 RDBMS 逐步 过 渡 的 文档 模型 的 路 径 。MongoDB 
文 持 类 SQL 查询 、 基 本 的 关系 型 引用 和 数据 库 对 象 ， 这 些 对 象 的 设计 从 标准 的 基于 数据 表 、 列 
的 模型 中 汲取 了 大 量 灵 感 。 如 果 用 NoSQL 的 主要 原因 是 可 以 使 用 宽松 的 数据 绪 构 ， 那 么 
MongoDB 肯定 是 开始 使 用 NoSQL 的 绝 佳 选择 。 

很 多 以 Web 为 中 心 的 业务 中 都 使 用 了 MongoDB, Foursquare 可 能 是 最 知名 的 MongoDB 用 
户 了 。 此 外 MongoDB 的 用 户 还 包括 了 Shutterfly, bit.ly, etsy 和 sourceforge。 它 们 中 间 的 许多 之 
所 以 选择 MongoDB ， 正 是 因为 它 文 持 灵 活 的 数据 模型 ， 能 提供 快速 的 谈 写 能 力 。Web 应 用 发 展 
通 稼 很 快 , 开 发 人 员 不 断 修改 底层 RDBMS 模型 向 币 会 减 慢 应 用 发 展 的 速度 , 特别 是 在 修改 频繁 ， 
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有 时 改动 又 很 大 时 。 此 外 数据 迁移 也 为 修改 数据 定义 市 来 了 很 多 挑战 。 

MongoDB 对 Web 框 扣 集 成 的 文 持 很 好 。 作 为 最 流行 的 Web 应 用 程序 框架 之 一 ，Rails 就 可 
以 有 效 地 集成 MongoDB, Rails 应 用 中 的 数据 通过 对 象 映 射 锅 持久 化 。 因 此 可 以 用 MongoDB $$ 
Hi RDBMS。 更 多 有 关 Rails3 集成 的 内 容 请 访问 : www.mongodb.org/display/DOCS/Rails+3+-+ 
Getting+Started, 

对 Java Web 程序 员 来 说 ,Spring 的 Spring Data JJi H Xf MongoDB 提供 了 非常 好 的 支持 。 更 多 
有 关 Spring Data 对 MongoDB 文 持 的 内 容 请 访问 : www.springsource.org/node/3032, EX EDEK 
是 MongoDB, Spring Data 项 目 还 文 持 了 很 多 其 他 NoSQL 产品 ， 包 括 Redis, Riak, CouchDB, 
Neo4j 和 Hadoop。 要 了 解 更 多 细节 请 访问 Spring Data 项 目 主 页 : www.springsource.oreg/sSpring-data。 

MongoDB 把 数据 保存 在 内 存 中 ， 需 要 时 再 写 人 向 盘 ， 很 像 持久 化 缓存 。 所 以 MongoDB 也 
可 以 被 看 作 是 介 于 RDBMS MAFFIA RESF ) 之 间 的 选择 。 很 多 Web 应 用 例如 实 
时 分 析 、 评 论 系统 、 评 分 存储 系统 、 内 容 管 理 软件 、 用 户 数 据 系 统 ， 其 至 是 日 志 应 用 都 受益 于 
MongoDB 提供 的 易于 修改 的 数据 结构 定义 。 不 仪 如 此 ，MongoDB 的 类 RDBMS 查询 能 力 、 将 数 
据 分 离 到 类 似 于 表 的 不 同 集合 中 的 能 力也 是 这 些 应 用 喜欢 的 特性 。 

Apache CouchDB 是 另 一 个 可 以 蔡 代 MongoDB 的 文档 数据 库 。CouchDB 的 主要 开发 者 将 他 
们 的 公司 CouchOne 与 Membase 合并 ， 所 以 Apache CouchDB 现在 改名 为 Couchbase server。 
Couchbase 以 Couchbase Server 的 形式 提供 Apache CouchDB 和 GeoCouch 的 打包 版 本 ， 同 时 了 予以 
技术 文 持 。 

Couchbase 是 遵从 Web 标准 的 典范 。Couchbase 主要 通过 RESTful 的 HTTP 交互 来 访问 ， 而 
日 它 在 以 Web 为 中 心 的 路 上 比 任何 其 他 数据 库 都 走 得 更 远 。Couchbase 中 包括 一 个 Web 服务 硕 ， 
它 用 Erlang OTP 构建 。 这 意味 着 实际 上 可 以 用 Couchbase 来 开发 整个 应 用 。 借 助 Membase 管理 
速度 和 厨 吐 量 的 能 力 ， 未 来 版 本 中 Couchbase 还 会 增加 通过 Memcached 协议 访问 的 接口 。 
Couchbase 还 计划 向 上 扩展 ， 利 用 Membase 的 弹性 能 力 无 颖 扩展 到 多 个 市 点 上 。Couchbase 非常 
强大 ,功能 也 很 丰富 , 但 是 它 占 用 的 空间 却 很 小 。 轻 巧 的 特质 使 得 它 非常 适 于 安 疙 在 智能 手机 或 
ERARA T ELAR D Couchbase 的 内 容 请 访问 :www.couchbase.com/products-and-services/ 
moblle-couchbase。 

Couchbase 模型 支持 REST 风格 的 数据 管理 。CouchDB 数据 库 可 以 包含 JSON 文档 ， 同 时 
还 可 以 附 寓 元 数据 或 文 持 文件 作为 附件 。 所 有 在 数据 上 执行 的 操作 (〈 创建、 获取、 更 新 和 删除 ) 
都 通过 RESTful 的 HTTP 请 求 来 完成 。Couchbase 集群 上 长 时 间 运 行 的 复杂 查询 则 利用 
MapReduce。 












































A REST， 即 表示 性 状态 转移 ， 代 表 一 种 适用 于 分 布 式 多 媒体 系统 ( 比如 万 
维 网 ) 的 软件 架构 风格 。 术 语 REST 是 由 Roy Fielding 在 其 博士 论文 中 首次 引 
入 和 定义 的 。 阅 读 更 多 有 关 REST 的 内 容 请 访问 : www.ics.uci.edu/-fielding/ 
pubs/dissertation/rest arch _ style.htm 。 
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1. 不 只 是 映射 表 

内 存 数 据 库 和 缓存 里 ， 最 出 名 的 数据 结构 当 属 映射 表 / 哈 希 表 。 有 映射 表 保 存 键 / 信 对 ， 文 持 快 
速 访问 数据 。NoSQL 内 存 数 据 库 用 文件 系统 持久 化 内 存 里 的 数据 ， 这 样 系统 重启 后 ， 数 据 不 会 
ER, RITEK, FE NoSQL 内 和 存 数 据 库 还 文 持 其 他 数据 结构 ， 这 样 一 来 ， 在 绥 存 之 外 它们 
也 有 了 大 展 身 手 的 机 会 。 

Berkeley DB 最 基本 的 功能 是 保存 二 进 制 键 / 值 对 。 其 存储 引擎 不 会 在 键 / 信 对 上 附加 任何 元 数 
据 。 对 象 这 样 的 高 层 抽 象 ， 主 要 通过 上 层 持 久 化 API 或 对 象 包 克 天 保存 到 Berkeley DB 中 。 

Membase 文 持 Memcached 文本 和 二 进 制 协议 、 键 / 值 对 存储 、 副 本 管理 和 一 致 性 哈 硕 ， 可 以 
在 不 影响 客户 并 的 前 提 下 增加 或 减少 集群 的 服务 需 数 量 。Redis 的 特点 则 稍 有 不 同 ， 它 文 持 大 部 
分 流行 数据 结构 开 箱 即 用 ， 号 称 " 数 据 结构 ?服务 顶 。 除 映射 表 外 ，Redis 还 文 持 列表 、 集 合 、 有 
厅 集 和 字符 串 。 此 外 Redis 甚至 具备 几 近 事务 的 能 力 ， 可 以 将 多 个 相互 独立 的 操作 看 成 一 个 原子 
操作 。 

如 果 知 要 市 文件 存储 的 内 存 数据 库 ， 为 了 作出 最 合适 的 选择 ， 应 考虑 产品 文 持 的 数据 模型 。 
很 多 时 候 键 / 值 存储 足 笑 ， 如 采 和 需求 列表 里 还 包含 这 些 字 眼 : 强大 、 稳 定 、 分 布 式 ， 能 文 持 大 量 
用 户 和 活动 负载 ， 那 选 Membase 基本 错 不 了 。 

2. HBase 和 Hypertable 

前 面谈 到 可 扩展 性 时 ,我 举 双手 双 脚 支持 列 族 数据 库 。 但 是 要 说 到 文 持 丰 是 的 数据 模型 ， 这 
些 断 然 不 是 最 佳 的 选择 , 行 键 查找 和 列 族 为 中 心 的 模型 一 般 来 说 还 是 不 够 用 , 不 过 有 了 抽象 层 的 
WD, 一切 又 有 了 可 能 。 

Google 不 仅 掀起 了 列 族 数据 库 的 革命 ， 还 为 自己 的 列 族 数据 库 增 加 了 数据 建 模 抽 象 层 。 在 
GAE 中 ， 可 以 通过 Python 和 Java 实现 丰富 的 数据 建 模 (第 10 章 介 绍 了 这 个 主题 )。 有 了 
DataNucleus 对 JDO 和 JPA XIF, IRETE HBase 和 Hypertable 上 使 用 流行 的 Java 对 象 模型 ， 将 
数据 持久 化 到 HBase 和 Hypertable。 除 此 以 外 ,Dijango 对 应 用 程序 引擎 的 非 关 系 型 支持 也 是 很 好 
的 参考 。 


14.1.4 查询 支持 


如 果 把 挑选 NoSQL 数据 库 比 作 拼 几 ， 存 储 是 一 块 ， 那 查询 就 是 另 一 大 块 。 要 做 出 审慎 的 选 
择 ， 高 效 易 用 的 查询 不 可 或 缺 。 这 一 点 在 创建 与 人 交互 的 应 用 时 尤其 重要 。SQL 为 RDBMS FR 
了 繁 示 ， 因 为 它 让 数据 的 访问 和 查询 变 得 容易 。 语 法 语义 的 标准 化 ， 让 它 显 得 格外 族人。 本 书 第 
1 草 谈 到 了 NoSQL 一 众 需 要 类 SQL 查询 语言 ， 后 续 草 节 描 述 了 各 目的 实现 。 

文档 数据 库 里 ，MongoDB 的 查询 能 力 可 请 智 立 鸡 群 。 要 说 “好 ”， 其 实 是 相对 的 ,不同 的 人 
对 什么 更 好 有 不 同 的 看 法 。 我 看 重 三 点 : 与 SQL 相似 、 语 法 简单 、 容 易学 习 。 话 说 如 果 和 掌握 了 
CouchDB 视图 和 设计 文档 的 概念 ，CouchDB 的 查询 能 力 其 实 一 样 蝇 大 ， 而 且 更 直观 。 但 是 
CouchDB 视图 是 一 个 新 概念 ， 前 期 会 给 开发 者 市 来 一 定 的 挑战 。 

基于 内 存 的 键 / 值 存 储 里 ,没有 谁 能 比 Redis 的 查询 能 力 更 丰 军 。 它 的 查询 方法 算得 上 最 全 面 。 
命令 文档 之 美 ， 更 是 锦上添花 。 有 关 Redis 查询 方法 的 内 容 请 参阅 : http://redis.io/commands。 
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f& HBase 这 样 的 列 族 存储 几乎 没有 提供 多 少 查 询 能 力 ,不 过 在 Hive 项 目的 帮助 下 ,用 类 SQL 
的 语法 查询 HBase 已 经 得 到 实现 。 第 12 章 会 介绍 Hive。Hypertable 的 查询 语言 是 HQL， 它 同时 
也 支持 Hive. 

有 了 Hive, 人们 自然 就 会 问 : 是 用 它 进行 日 常 操作 数据 , 还 是 批量 处 理 或 者 商业 智能 计算 ? 
THEE SQL 之 与 RDBMS，Hive 交互 性 没有 那么 好 。Hive 形似 SQL， 实 际 上 是 对 MapReduce 风格 
的 数据 处 理 的 一 种 抽象 。 它 文 持 用 类 SQL HAV EE map, reduce 函数 来 进行 批量 数据 处 理 操作 。 








14.1.5 ”接口 可 用 性 


MongoDB 有 了 驱动 的 概念 ， 用 来 访问 MongoDB 各 种 主流 类 库 的 驱动 都 有 。CouchDB 用 标准 
的 Web 方 式 访问 , 所 以 任何 支持 Web 通讯 的 语言 部 能 访问 CouchDB。 一 些 语 言 封 狐 的 CouchDB 
类 库 运 作 起 来 很 像 MongoDB 驱动 ， 只 不 过 CouchDB 总 有 RESTful HTTP ROZ T. 

Redis, Membase, Riak, HBase, Hypertable, Cassandra 和 Voldemort 都 支持 大 部 分 主流 语言 。 
其 中 许多 都 是 用 像 Thrift 这 样 的 语言 中 立 的 服务 层 来 封 疾 ， 或 者 底层 用 到 了 像 Avro 这 样 的 序列 
化 机 制 。 所 以 理解 各 种 序列 格式 的 性 能 特征 就 变 得 很 重要 。 

对 JVM 上 的 序列 化 格式 jvm-serializers 项 目 很 好 地 分 析 它 们 的 性 能 特点 ， 地 址 是 
https:/github.comy/eishay/jvmserializers/wiki。 这 个 项 目测 量 了 许多 种 数据 格式 的 性 能 ， 上 履 盖 到 的 
格式 如 下 。 

口 protobuf 2.3.0。Google 数据 交换 格式 。http://code.google.com/p/protobufy/ 

口 thrift 0.4.0。Facebook 开源 ，HBase Hypertable 和 Cassandra 等 NoSQL 产品 使 用 。 


http://incubator.apache.org/thrift/ 
D avro 1.3.3。Apache 项 目 。 替 代 一 些 NoSQL 产品 中 的 Thrift, http://avro.apache.org/ 


D kryo 1.03, Java XJR [E F&AMETEZB, http://code.google.com/p/kryo/ 

O hessian 4.0.3。 二 进 制 Web 服务 协议 。http://hessian.caucho.com/ 

Q sbinary 0.3.1-SNAPSHOT. 描述 Scala 类 型 的 二 进 制 格 式 。https://github.com/harrah/sbinary 

口 google-gson 1.6。Java 对 象 转 JSON 的 类 库 。http://code.google.com/p/google-gson/ 

口 jackson 1.7.1。Java 的 JSON 人 处理 疾 。http://jackson.codehaus.org/ 

口 javolution 5.5.1。 实 时 和 散人 系统 。Java。http://javolution.org/ 

口 protostuff 1.0.0.M7。 利 用 protobuf 进行 序列 化 。http://code.google.com/p/protostuff/ 

口 woodstox 4.0.7。 高 性 能 XML Abs. http://woodstox.codehaus.org/ 

口 aalto 0.9.5。Aalto XML Abl zs, www.cowtowncoder.com/hatchery/aalto/index.html 

口 fast-infoset 1.2.6, Fast infoset 二 进 制 XML 的 开源 实现 。http://fi.java.net/ 

口 xstream 1.3.1。XML 序列 化 类 库 及 备份 。http://xstream.codehaus.org/ 

性 能 数据 是 在 JVM 上 运行 得 到 的 ， 不 过 结果 可 能 也 跟 其 他 平台 相关 。 结 果 显 示 protobuf、 
protostuff, kryo 和 手动 处 理 序 列 化 和 反 序 列 化 的 性 能 最 好 。 如 采 看 序列 化 大 小 及 压缩 后 的 大 小 ， 
那 Kryo 和 Avro 格式 最 高 效 。 

在 查看 了 格式 性 能 之 后 ， 下 一 证 我 们 将 继续 探究 NoSQL 产品 目 身 的 性 能 测试 。 
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14.2 ”性 能 测试 


YCSB ( Yahoo! Cloud Services Benchmark，Yahoo! 云 性 能 测试 服务 ) 是 最 有 名 的 NoSQL 性 能 
比较 工具 。 虽 人 然 它 有 一 定 的 局 限 性 ， 但 提供 的 NoSQL 产品 分 析 还 是 比较 全 面 。YCSB 包含 两 个 
重要 的 工具 : 

口 负载 生成 硕 〈workload generator ) 

Q 负载 生成 融 使 用 的 样 例 负 载 

YCSB 地 址 是 : https:/github.comybrianfrankcooperYCSB。Yahool! 的 性 能 测试 中 包含 了 许多 种 
NoSQL 产品 。 最 新 公布 的 结 采 中 包含 下 列 产品 : 

口 Sherpa/PNUT 类 Bigtable 系统 ( HBase, Hypertable, HTable, Megastore ) 

L] Azure 

Q Apache Cassandra 

口 Amazon Web Services ( S3, SimpleDB, EBS ) 

Q CouchDB 

DQ Voldemort 

Q Dynomite 

L] Tokyo Cabinet 

Q Redis 

Q MongoDB 

WARE. FAREI MAE. 98 1 层 关 注 给 定 便 件 下 最 大 负载 时 的 性 能 。 硬 件 不 
变 ， 负 载 持 续 增 加 百 至 人 硬件 饱和 为 止 。 第 2 层 关 注 可 扩展 性 。 便 件数 量 随 负 载 增 加 而 增加 。 第 2 
层 测量 负载 和 便 件 等 比 增加 时 的 系统 延迟 。 

负载 有 各 种 不 同 的 配置 , 用 来 测试 在 平衡 和 满 负荷 等 不 同 条 件 下 的 性 能 和 可 扩展 性 。 下 面 介 
绍 测试 用 例 。 


























14.2.1 50/50 的 读 和 更 新 


50/50 的 谈 和 更 新 是 谈 少 写 多 的 测试 用 例 。 结 采 显 示 这 种 情况 下 Apache Ccassandra 的 谈 和 更 
新 延迟 要 优 于 其 他 竞争 对 手 ，HBase 紧 随 其 后 。Cassandra 每 秒 能 执行 超过 1 万 次 操作 (50/50 读 
和 更 新 )， 平 均 谈 延迟 25 室 秒 。 更 新 的 性 能 比 谈 好 ， 同 样 的 负载 下 平均 延迟 只 有 10 Æ, AERE cm 











能 执行 超过 1 万 次 操作 。YCSB 里 除了 NoSQL 还 有 MySQL。 虽然 这 一 章 里 我 忽略 了 RDBMS 和 
NoSQL 的 性 能 对 比 ， 不 过 我 发 现 很 有 趣 的 是 ，MySQL 读 和 更 新 的 延迟 只 在 每 秒 执 行 4000 个 左 
右 的 操作 时 才 有 可 比 性 ， 每 秒 执行 操作 数 超过 5000 L SES EUR EST, 





14.2.2 95/5 的 读 和 更 新 


95/5 的 读 和 更 新 是 读 多 写 少 的 测试 用 例 。 这 个 用 例证 明了 本 书 描述 过 的 一 些 理论 ， 比 如 对 有 
序列 族 存储 来 说 ， 连 续 范 围 的 读 取 性 能 最 好 。HBase 的 读 性 能 表现 很 稳定 ， 与 每 秒 操作 数 无 关 。 
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5% 的 更 新 在 HBase 里 几乎 没有 延迟 。 只 旋 情 部下 MySQL 的 性 能 最 好 ， 这 可 能 跟 缓 存 有 关 。 如 
果 结 合 分 布 式 缓存 Memcached 或 者 Membase, HBase 的 读 取 性 能 可 与 MySQL 比肩 ,而 且 负 载 增 
加 时 扩展 效果 还 会 更 好 。Cassandra 在 谈 多 写 少 的 用 例 中 表现 出 十 分 出 色 的 性 能 ， 超 过 了 HBase。 
不 过 别 忘 了 Cassandra 是 最 终 一 致 性 模型 ， 而 且 所 有 写 都 要 追加 到 commit log 中 。 











14.2.3 f4iü 


HBase 的 扫描 性 能 注定 要 超过 其 他 数据 库 ,， 包括 1 到 100 条 记录 和 范围 扫描 的 情况 ， 测 试 证 
明了 这 一 点 。Cassandra 的 扫描 性 能 则 无 法 预测 。 


14.2.4 可 扩展 性 测试 


Cassandra 和 HBase 在 负载 增加 、 人 硬件 增加 的 情况 下 性 能 表现 相对 稳定 。 一 些 绪 果 显示 HBase 
节点 少 于 三 个 时 比较 不 稳定 。 添 加 硬件 非常 重要 的 一 方面 是 弹性 。 弹 性 衡量 添加 新 节点 后 对 数据 
的 重新 均衡 ( rebalance )。Cassandra 这 方面 表现 较 差 ,看 起 来 需要 很 长 时 间 才 能 稳定 下 来 。HBase 
每 次 重新 平衡 都 表现 出 一 致 的 性 能 ， 这 跟 压 缩 有 关 。 

一 如 早先 提 到 过 的 , 性 能 测试 只 是 一 方面 ， 如 果 纯 靠 测 试 结 果 作 决策 ,很 可 能 会 被 误导 。 此 
外 产品 不 断 更 新 ， 同 一 个 产品 不 同 版 本 测试 的 结果 也 不 一 样 。 综合 考 虑 性 能 指标 和 功能 比较 ,而 
非 单纯 依靠 某 方面 ， 才 是 更 明智 的 做 法 。 




























Hypertable 测试 不 是 YCSB 测试 中 的 部 分 ， 二 者 相互 独立 。YCSB 测试 更 
宽泛 , 涉及 一 系列 NoSQL fe RDBMS 产品 , Hypertable 测试 更 专注 于 考察 有 序 
列 族 存 储 的 性 能 。 





14.2.5 “Hypertable 测 试 





Hypertable 团队 提供 了 一 套 测试 来 比较 HBase 和 Hypertable 这 两 大 Google Bigtable 类 产品 。 
测试 结果 很 有 意思 , 执行 的 测试 与 Google Bigtable 论文 提出 的 一 致 。 可 以 在 线 阅读 Bigtable 研究 
论文 第 7 市 来 理解 测试 的 内 容 ， 地 址 是 : http://labs.google.com/papers/bigtable.html。 

结果 一 致 表明 在 大 多 数 情况 下 Hypertable 的 性 能 都 比 HBase 好 。 测试 及 其 结果 的 细节 可 以 访 
Hj: www.hypertable.com/pubmperfevaltestl/。 下 面 解释 其 中 一 些 重要 的 发 现 。 

Hypertable 根据 人 负载 动态 调整 分 配给 子 系统 的 内 存 。 读 多 时 ，Hypertable 把 大 部 分 内 存 分 配 
给 缓存 。HBase 缕 存 分 配 是 固定 的 ， 即 Java ERI 20%。 从 延迟 的 角度 看 , 很 明显 Hypertable 的 延 
IREE HBase 小 ， 数 据 越 小 ， 差 寞 越 鲜 明 。 数 据 只 有 2GB 以 下 时 ， 所 有 数据 都 能 加 载 到 绥 存 里 。 

随机 写 、 顺 序 读 和 扫描 的 测试 结果 表明 在 这 些 用 例 中 Hypertable 的 性 能 都 比 HBase 好 。 如 果 
用 集群 管理 大 量 数据 ， 有 时 性 能 差别 会 影响 成 本 。 更 好 的 性 能 即 更 低 的 计算 周期 和 资源 消耗 意 
味 关 能 太 约 更 多 的 成 本 。 
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不 同 的 产品 提供 商 提供 了 许多 测试 ， 包 括 下 面 这 些 : 

CQ Tokyo Cabinet Benchmark, http://tokyocabinet.sourceforge.net/benchmark.pdf 

DQ How fast is Redis, http://redis.1o/topics/benchmarks 

CL Riak benchmark, https://bitbucket.org/basho/basho bench/ 

DQ VoltDB: Key/value benchmarking. http://voltdb.com/blog/key/value-benchmarking 
D Sort benchmark, http://sortbenchmark.org/ 


14.3 ”背景 比较 


前 两 节 按 功能 和 性 能 比较 了 不 同 的 NoSQL。 本 市 介绍 一 些 NoSQL 产品 的 背景 相关 信息 ,及 

引发 这 些 产 品 的 创建 和 发 展 的 条 件 。 

各 种 NoSQL 产品 并 不 相同 。NoSQL 产品 的 功能 和 性 能 也 不 全 一 样 。 每 个 NoSQL 产品 都 有 
它 目 己 的 历史 、 动 机 、 场 景 和 独特 的 价值 主张 。 设 喘 处 地 从 这 些 观点 ,特别 是 产品 的 历史 与 演变 
的 角度 去 看 ， 有 助 于 更 好 地 理解 哪 种 NoSQL 产品 更 适合 完成 手头 的 任务 。 

对 文档 数据 库 ， 可 以 浏览 下 面 的 在 线 资 源 。 

Q CouchDB, Erlang Factory 2009 会 议 的 一 个 视频 ( www.erlang-factory.com/conference/ 
SFBayAreaErlangFactory2009/speakers/DamienKatz ) 中 ，CouchDB 创始 人 Damien Katz 从 
个 人 角度 谈论 了 CouchDB 开发 的 历史 , 他 谈 到 激发 他 创造 CouchDB 的 灵感 , 以 及 为 什么 
决定 让 妻子 和 和 孩子 们 搬 到 一 个 更 便宜 的 地 方 ， 节 省 文 出 来 开发 数据 库 。 他 还 谈 到 了 切换 
到 Erlang 的 决定 以 及 加 入 Apache 基金 会 的 转变 。 这 个 视频 揭示 了 产品 背后 的 动机 和 因由 。 

O MongoDB, HEFEI Kristina Chodrow 在 她 的 博客 上 写 的 非 官 方 历史 : www.snailina 
turtleneck.com/blog/2010/08/23/history-of-mongodb/。 

对 键 / 值 数据 库 ， 可 以 浏览 的 资源 如 下 。 

Q Redis, 阅读 Antirez (Salavtore Sanfi llippo) 决 定 将 lloogg.com 从 MySQL 切换 成 Redis 以 后 

写 的 邮件 列表 ( http://groups.google.com/group/redis-db/browse thread/thread/0c706a43bc 
78b0eS/17c21c48642e4936?#17c21c48642e4936 )。 

Q Tokyo Cabinet. HEr” m A W ESA Tokyo Cabinet 的 价值 主张 ,地 址 为 :http:/fallabs.comy 

tokyocabinet/, 

O Kyoto Cabinet. FFÆ Tokyo Cabinet 的 那 伙 人 创建 了 一 个 新 产品 Kyoto Cabinet。 细 市 请 参 

|]: http:;//fallabs.com/kyotocabinet/, 

Bigtable 和 Dynamo 类 产品 HBase, Hypertable, Cassandra 和 Riak 的 历史 主要 是 想 要 复制 
Google 和 Amazon 的 成 功 。 学 习 它 们 的 历史 不 外 乎 是 复制 Google 和 Amazon 的 好 点 子 ， 儿 乎 没 
有 其 他 内 容 。 当 然 复 制 点 子 也 不 是 那么 容易 ， 需要 有 一 个 探索 和 创新 的 过 程 。 随 着 用 户 把 这 些 产 
品 投 入 到 新 的 、 不 同 的 场景 中 ， 产 品 会 快速 地 发 展 。 它 们 在 发 展 过 程 中 很 可 能 会 引入 许多 超越 原 
有 实现 的 新 特性 。 

NoSQL 是 新 兴 领 域 ， 虽 然 理解 产品 发 展 的 背景 很 有 价值 ,但 许多 NoSQL 产品 的 历史 还 尚 在 
THER. 
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14.4 ”小 结 


本 章 提 供 了 流行 NoSQL 产品 的 比较 ,虽然 商 济 , 但 也 蛋 有 意义 的 。 选择 NoSQL ^is 254288 
心 ， 而 且 只 有 在 了 解 了 产品 的 功能 、 性 能 特征 和 历史 以 后 才能 决定 。 

本 章 并 未 解释 所 有 特性 , 也 没有 提供 模型 来 帮助 你 选择 产品 , 而 是 建立 以 之 前 的 章节 为 基础 ， 
春 重 演示 一 些 重 要 的 事实 ， 总 结 一 些 基本 的 观点 。 无 论 如 何 ， 选 择 权 还 是 在 你 目 己 手中 。 
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本 章 内 容 

口 为 多 种 持久 化 技术 做 准备 

口 了 解 适用 于 静态 数据 的 数据 库 技术 
口 选择 适合 的 数据 库 来 简化 应 用 开发 
a 组 合 使 用 RDBMS 和 NoSQL 产品 


N oSQL 的 出 现 和 它 愈 演 愈 烈 的 趋势 让 开发 者 们 开始 思考 :NoSQL 是 否 能 代 符 RDBMS? 
有 说 法 认为 RDBMS 已 死 , 而 NoSQL 将 主导 下 一 代数 据 库 技术 。 另 外 一 些 言论 试图 证 
明 NoSQL 不 过 是 县 花 一 现 。 这 两 种 言论 都 过 于 偏激 。NoSQL 和 RDBMS 都 很 重要 ， 各 有 它们 的 
用 武之 地 , 这 两 种 技术 和 平 共处 更 为 现实 。 技 术 多 元 化 是 背 态 ， 共 存 不 仅仅 是 今天 ,也 是 未 来 的 
趋 回 。 为 了 共存 ， 需 要 做 哪些 准备 ?” 有 什么 样 的 流程 ”本 章 将 者 重 介 绍 这 些 内 容 。 

本 章 首 先 介 绍 在 热门 的 开源 RDBMS 产品 一 MySQL 中 如 何 利 用 NoSQL 思想 。 接 下 来 介绍 
在 数据 仓库 和 商业 智能 领域 里 ， 不 可 变 的 数据 对 数据 库 的 要 求 。 除 此 之 外 , 还 会 介绍 在 某 些 情况 
下 ， 人 恰当 地 选择 数据 库 技 术 ， 能 使 得 应 用 开发 变 得 更 轻松 。 




















15.1 MySQL 用 作 NoSQL 


到 目前 为 止 , 本 书 一 直 都 把 RDBMS FI NoSQL 看 作 两 种 全 然 不 同 的 技术 。 在 理解 与 SOL 和 
关系 表 对 立 的 NoSQL 时 ， 这 种 观点 非常 重要 。 但 是 这 两 类 思想 并 非 完 全 制 裂 ， 它 们 也 有 着 很 多 
相同 的 理念 。 一 个 例子 就 是 RDBMS 和 一 些 NoSQL 的 索引 常用 的 B 树 或 类 B 树 结构 。 不 过 即便 
是 这 样 ， 对 schema 和 SQL 的 文 持 仍然 是 RDBMS 的 独特 标志 。 

MySQL 是 最 流行 的 开源 关系 型 数据 库 。 它 的 设计 模块 化 ， 提 供 了 可 插 拔 的 存储 引擎 ， 还 文 
持 可 插 拔 的 模块 来 提供 额外 的 特性 .从 概念 层面 看 ,用 客户 端 访 问 MySQL 服务 咒 如 图 15-1 所 示 。 

MySQL 非常 快 。 对 于 数 干 行 的 数据 ， 它 的 读 写 速度 通常 都 非常 棒 ， 对 大 部 分 用 例 而 言 完 全 
够 用 。 数 据 量 增加 以 后 ， 为 服务 需 提 供 充 足 的 内 存 能 提升 性 能 。 类 似 大 多 数 数据 库 ，MYySQL 在 
存储 引擎 的 缓存 池 中 保存 已 获取 的 行 集 , 再 次 获取 同样 的 行 集 时 性 能 明显 提升 。 不 过 随 着 数据 量 
增加 ，SQL 的 开销 也 会 变 得 比较 明显 。 每 次 获取 数据 ,特别 是 在 频繁 并 发 地 由 多 个 客户 端 发 起 请 
求 时 ， 都 会 导致 一 些 高 成 本 的 操作 : 
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a 解析 SQL 语句 

a 打开 表 

a id 

a 创建 SQL 执行 计划 

OQ 解锁 表 

口 关闭 表 

a 使 用 信号 量 和 线程 管理 并 发 访问 


存储 引擎 

















图 15-1 


因此 ， 要 在 大 负载 下 提升 性 能 ， 必 须 尽 可 能 缓存 更 多 数据 。Memcached 是 适用 于 MySQL 的 
典型 内 存 绥 存 方案 。 行 集 缓存 在 内 存 里 , 通过 内 存 提 供给 客户 问 。 如果 有 大 量 内 存 ( 比如 32GB ), 
MySQL 和 Memcached 每 秒 能 处 理 超过 400 000 次 查询 。 当 然 这 些 查询 都 是 主键 查询 ， 不 包括 连 
接 等 。 假 设 还 认为 所 有 相关 数据 都 在 内 存 里 , 不 需要 再 从 磁盘 中 谈 取 。 和 内 存 访 问 相 比 , 磁盘 IO 
实在 是 过 于 昂 贯 MAHEK 

前 面 提 到 Memcached 是 键 / 值 存 储 。 像 Membase, Redis, Tokyo Cabinet 和 Kyoto Cabinet 也 
可 以 和 MySQL 一 起 使 用 并 达到 相近 的 性 能 效果。 这 是 一 种 结合 RDBMS (MySQL ) 和 NoSQL 
(如 Memcached ) 来 完成 主键 查询 的 场景 。 图 15-2 $822 Y 2€ P mV] MySQL, Memcached 做 前 
端的 典型 情景 。 

MySQL 结合 Memcached 很 有 效 ， 但 染 构 上 存在 下 面 一 些 缺 陶 。 

OQ 有 两 个 地 方 的 数据 在 内 存 里 : 存储 引擎 缓冲 区 和 Memcached。 

口 存储 引擎 和 Memcached 数据 副本 的 状态 可 能 会 不 一 致 。 

O 数据 通过 SQL 层 加 载 到 Memcached 中 ， 因 此 SQL 成 本 还 是 存在 ， 只 不 过 最 小 化 了 而 已 。 

口 所 有 数据 都 在 内 存 里 时 ,Memcached HERET mi, RiR IO 开销 可 能 很 大 ,而 且 会 导致 系统 


变 慢 。 
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MySQL SQ np 
a ng Memcached B 存储 引擎 

















Kl 15-2 


还 有 一 种 结合 MySQL 和 Memcached 的 方案 是 越过 SOL 层 直 接 访 问 存 储 引 警 。MYySQL 的 
HandlerSocket 插件 就 是 这 么 做 的 ， 它 支持 绕 开 SQL 层 直 接 访问 MySQL 存储 引擎 ， 项 目 开源 ， 
github 地 址 : https://github.com/ahiguti/HandlerSocket-Plugin-for-MySQL. 

HandlerSocket 可 以 被 加 载 到 已 有 MySQL IRE, IM HandlerSocket 不 会 关闭 SQL 层 。 
事实 上 两 层 都 可 用 。HandlerSocket 为 MySQL 提供 了 类 NoSQL 的 接口 ， 文 持 更 快 地 访问 数据 ， 
寺 别 是 基于 主键 的 获取 。 图 15-3 展示 的 是 配置 了 HandlerSocket 的 MySQL. 



































SQL 
层 
žm O 3306 
MySOL | | ， 
存储 引 敬 
iENmI--9998 
^3um O -- 9999 
Handler 
Socket 
图 15-3 
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HandlerSocket 实现 了 网 络 协议 、API 和 轻 量 级 的 连接 来 直接 访问 MySQL 存储 引擎 〈 比如 
InnoDB )。 它 文 持 和 NoSQL 数据 库 一 样 灵 活 和 高 性 能 的 查询 方式 。 性 能 测试 数据 在 这 里 : 
http://yoshinorimatsunobu.blogspot.com/2010/10/using-mysql-as-nosql-storyfor.html 。 数据 显示 
HandlerSocket 每 秒 能 完成 超过 750 000 次 主键 查询 ， 其 性 能 之 高 令 人 印象 深刻 。 

HandlerSocket 的 API 不 会 涉及 打开 、 锁 住 、 解 锁 和 关闭 表 的 成 本 。 它 的 API 非 第 轻 量 级 ， 
和 SQL 层 相 比 更 偏向 NoSQL, HandlerSocket 自 带 了 C++ 和 Perl 的 API。 除了 核心 发 布 版 提供 的 
实现 外 ， 还 有 其 他 语言 的 HandlerSocket API 实现 ， 包 括 PHP, Java, Python, Ruby, Javascript 
和 Scala。 要 了 解 这 些 类 库 请 访问 : https:/github.com/ahiguti/HandlerSocket-Plugin-for-MySQL - 
HandlerSocket 的 网 络 包 很 小 ， 文 持 多 并 发 连接 。 

HandlerSocket È F Memcached+SQL EB; 4e T E fex rf SQL 层 处 理 ， 同 时 还 避 例 了 重 
复 缓存 以 及 复制 中 淤 在 的 不 一 致 。HandlerSocket 接口 直 连 存储 引擎 , 所 以 同一 个 存储 不 会 出 现 两 
} 副 本。 

基于 HandlerSocket 的 NoSQL 方案 特别 适 于 高 性 能 旋 的 场景 。MySQL 引擎 提供 事务 文 持 和 
MJ rp. m EXSSEH]MySQL 附带 的 所 有 工具 来 监管 查询 。 最 后 ，HandlerSocket 很 容易 整 
合 进 已 有 的 MySQL 服务 器 ， 极 为 灵活 。 

除了 以 NoSQL 方式 使 用 MySQL, MySQL 还 可 以 用 作 最 终 一 致 性 NoSQL 存储 Voldemor 的 
底层 引擎 。InnoDB 也 可 以 作为 存储 引擎 搬入 Riak。 

有 些 情况 下 ,MySQL 也 没 法 作为 NoSQL 用 , 因为 需要 的 可 能 是 文档 数据 库 、 列 族人 存储 或 键 
/ 值 存 储 提 供 的 存储 方式 。 这 种 时 候 ， 可 以 把 RDBMS 当 作 事务 系统 运行 ， 剩 下 的 部 分 就 交 给 
NoSQL 了 。 


15.2 ”静态 数据 存储 


NoSQL 通常 都 缺乏 RDBMS 提供 的 事务 文 持 和 一 致 性 ， 有 趣 的 是 ， 这 一 点 稼 币 成 为 不 选择 
NoSQL 的 一 个 主要 理由 。 不 过 在 评估 数据 库 的 事务 文 持 前 ， 应 当前 先 考虑 数据 是 否 变 化 ， 是 否 
需要 事务 文 持 。 

和 许多 开发 者 的 观念 不 同 ， 现 在 很 多 应 用 程序 需要 的 事务 文 持 其 实 非 常 少 ,， 甚至 不 需要 。 这 
主要 是 因为 数据 经 党 是 写 一 次 ,然后 读 和 处 理 多 次 。 如 末 不 知道 哪些 数据 算 这 类 ， 那 就 打开 你 的 
e-mail 或 者 社交 应 用 ， 看 看 这 些 系统 究 范 有 多 少 功 能 和 更 新 删除 有 关 。 许 多 社交 应 用 里 能 发 送 消 
县 或 微 博 , 或 者 更 新 状态 , 一 般 都 是 写 一 次 , 谈 多 次 。 有 部 分 管理 这 种 活动 流 的 系统 能 文 持 更 新 ， 
不 过 即便 是 这 些 系统 , 更 新 往往 也 不 是 原 地 更 新 (inline update )， 而 是 补偿 性 事务 (compensating 
transaction )。 也 可 能 支持 删除 ,但 不 一 定 是 以 交易 形式 发 送 给 所 有 接收 者 。 就 是 说 ,被 删除 的 微 
TS SX TES, RT E AURA SER. Y, 但 不 一 定 从 所 有 消费 它 的 应 用 里 删除 了 。 而且 删除 也 往往 是 
服务 发 送 的 一 个 补偿 性 消息 。 

写 一 次 读 多 次 在 RSS 更 新 、E-mail、SMS 短 消 县 或 反馈 中 普 过 存在 ,征求 投票 、 反 饿 、 评 分 
和 评论 的 应 用 也 通常 是 写 一 次 读 多 次 的 。 如 采 这 些 应 用 允许 更 新 ， 那 往往 是 因为 更 新 并 不 频繁 。 
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A 前 一 章 我 们 看 到 像 HBase, Hypertable 和 MongoDB 这 样 的 NoSQL 提供 行 
级 原子 更 新 ， 这 些 数 据 库 并 不 支持 范围 的 ACID 事务 。 不 过 很 多 情况 下 更 新 之 
间 相 互 都 隔离 ， 不 会 对 一 组 条 目 执行 ， 这 样 行 级 更 新 就 足够 了 。 
一 部 分 NoSQL 数据 库 例 如 Apache Cassandra, Riak fe LinkedIn Voldemort 
都 是 最 终 一 致 性 的 。 也 就 是 说 这 些 数据 库 不 提供 基于 Paxos 或 者 类 似 算法 的 强 
一 致 性 , 在 更 新 传递 到 副本 节点 过 程 中 会 出 现 不 一 致 ,通常 在 很 短 时 间 内 就 会 


达到 一 致 。 许 多 应 用 其 实 能 接受 短 时 间 的 不 一 致 。 





许多 巨型 社交 媒体 例如 Facebook, Twitter 和 LinkedIn 都 是 NoS QL 和 RDBMS 的 大 用 户 。 


15.2.1 存储 多 元 化 在 Facebook 中 的 应 用 


Facebook 在 许多 关键 应 用 中 都 使 用 MySQL， 同 时 Facebook 又 大 量 使 用 了 HBase。Facebook 
在 一 次 技术 交流 中 提 到 了 他 们 对 MySQL 进行 的 优化 ， 可 以 在 线 访 问 录 音 ， 地 址 是 : 
www.livestream.com/facebookevents/video?clipId-flv cc08bf93-7013-416e3-81c9-bfc906ef8442 , Facebook 
(REFRE, maTkBE,. RENIX] MySQL 的 优化 也 都 是 针对 这 些 内 容 。 他 们 关注 于 提升 每 秒 
的 查询 次 数 及 控制 请 求 一 响应 时 间 的 波动 。 在 2010 年 11 月 的 一 次 演讲 中 ，Facebook 曾 展 示 了 一 
些 数字 ， 令 人 印象 次 和 刻 ， 他 们 分 享 的 在 线 交 易 处 理 系 统 的 一 些 关 键 指标 如 下 。 

Q 读 响 应 平均 是 4ms， 写 平均 是 Sms。 

口 每 秒 读 取 的 记录 最 高 可 达 4.5 亿 行 ， 与 大 多 数 系统 相 比 ， 这 个 数字 显然 非常 大 。 

口 峰值 达到 1300 万 次 查询 / 秒 。 

a 边界 情况 下 能 处 理 320 万 行 记 录 的 更 新 ，520 万 次 InnoDB 磁盘 操作 。 

虽然 Facebook 每 秒 查 询 次 数 非常 怀 人 ， 不 过 他 们 更 关注 可 靠 性 。 通 过 主动 监测 和 分 析 ， 
Facebook 的 数据 库 团 队 能 及 时 发 现 服务 硕 性 能 的 问题 。 慢 查询 和 其 他 慢 速 问题 会 被 逐步 发 现 并 修 
正 ， 使 得 整个 系统 性 能 保持 恨 好。 更 多 细节 可 以 从 他 们 的 PPT 中 获得 。 

Facebook 同时 也 是 Cassandra 的 诞生 地 。 最 近 他 们 放弃 了 Cassandra 而 转 回 HBase。Facebook 
现在 的 消息 系统 就 是 构建 在 HBase 上 的 ， 它 文 持 每 月 存储 超过 1350 亿 消 息 。Facebook 工程 师 团 
队 的 一 份 笔记 www.facebook.com/note.php?note id-454991608919 解释 了 选择 HBase 的 原因 。 首 
先是 基于 Paxos 的 强 一 致 性 模型 。HBase 的 可 扩展 性 很 好 ， 也 有 基础 设施 能 文 持 高 元 余 的 配置 。 
故障 转移 和 人 负载 均衡 默认 也 都 支持 , HBase 底层 的 分 布 式 文件 系统 HDFS 又 额外 提供 了 一 层 元 余 
和 容错 。 此 外 ， 还 可 以 复 用 协调 统筹 系统 ZooKeeper， 并 稍 作 修改 来 支持 用 户 服务 。 

此 ， 对 于 像 Facebook 这 样 的 公司 来 说 ,采取 混合 素 略 让 他 们 可 以 用 恰当 的 工具 来 处 理 不 
同 的 任务 。Facebook 的 团队 仍然 需要 修改 系统 以 适应 他 们 的 需要 , 但 是 他 们 的 故事 告诉 我 们 , 无 
论 选 DBMS 还 是 NoSQL， 最 重要 的 都 是 要 选择 适合 的 数据 库 。Facebook 故事 中 的 为 一 点 是 他 们 
选择 了 目 己 最 熟悉 的 工具 ， 他 们 选择 的 是 目 己 的 工程 师 异 得 如 何 调适 的 工具 ， 而 不 是 妃 逐 趋势 。 
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例如 ， 坚 持 使 用 PHP 和 MySQL 就 为 Facebook 市 来 了 好 处 ， 因 为 工程 师 们 能 调整 这 些 工 具 来 满 
足 他 们 的 需要 。 有 人 争论 老 技术 不 行 ， 不 过 性 能 数据 清楚 地 指出 Facebook 已 经 找到 了 大 规模 音 
署 它 们 的 办 法 。 

和 Facebook 一 样 ，Twitter 和 LinedIn 也 选择 了 混合 策略 。Twitter 积极 使 用 MySQL 和 
Cassandra, Twitter 还 使 用 图 数据 库 FlockDB 来 存储 关系 ， 比 如 谁 关注 了 谁 ， 或 者 你 接受 谁 的 手 
机 提示 。 过 去 几 年 里 Twiiter 变 得 极为 流行 ， 数 据 量 的 增长 也 非常 厉害 。Kevin Weil 在 2010 年 9 
月 的 演讲 上 (www.slideshare.net/kevinweil/analyzing-big-data-at-twitter-web-20-expo-nyc-sep-2010 ) 
介绍 说 当时 每 天 的 微 博 和 私信 量 已 经 达到 12TB 了 ， 假 设 线性 增长 ， 那 每 年 就 会 增加 超过 4PB。 
随 看 越 来 越 多 的 人 使 用 Twitter 沟通 ，Twitter 的 数据 必定 会 继续 增长 ， 越 变 越 大 。 要 处 理 这 么 多 
数据 一 定 是 巨大 的 挑战 。Twitter 用 Hadoop, MapReduce 和 Pig ( http://pig.apache.org/ ) 进行 大 数 
据 分 析 。Pig 霹 句 最 终 会 钞 地 为 Hadoop 集群 上 的 MapReduce 任务 。 在 Twitter， 大 量 核心 存储 仍 
然 依 赖 MySQL, Twitter 的 很 多 功能 都 大 量 使 用 MySQL, Cassandra 只 在 特定 场景 中 使 用 ， 比 如 
存储 地 理 信息 数据 。 

与 Twitter 相似 ，LinkedIn 也 依赖 多 种 不 同 的 数据 存储 。Jay Kreps 在 去 年 的 Hadoop 峰会 上 介 
?H f LinkedIn 的 大 数据 架构 和 存储 ， 幻 灯 片 地 址 为 : www.slideshare.net/ydn/6-data-application- 
linkedinhadoopsummmit2010。LinkedIn 用 Hadoop 来 处 理 大 规模 分 析 任 务 ， 比 如 推测 你 可 能 认识 
的 人 。Hadoop 集群 上 的 数据 量 很 大 ,范围 约 为 每 天 1200 亿 个 关系 ,涉及 82 个 Hadoop 任务 和 超 
过 16TB 中 间 结 打数 据 。 概 率 图 被 从 离线 存储 复制 到 一 个 在 线 的 NoSQL 集群 里 ,使 用 的 NoSQL 
数据 库 是 Voldemort (H Apache Dynamo )， 它 将 数据 表示 为 键 / 值 对 。 关 系 图 是 只 该 的 ， 所 以 
Voldemort 的 最 终 一 致 性 模型 不 会 引起 任何 问题 。 数 据 是 批量 处 理 的 ， 但 实时 搜索 过 滤 ， 过 滤 表 
可 能 会 排除 某 人 不 认识 的 那些 人 。 

通过 Facebook, Twitter 和 LinkedIn, 我 们 可 以 很 明显 地 看 到 , 混合 策略 有 它 的 好 人 处， 可 以 优 
化 软件 栈 ， 方 便 特定 场景 用 适合 的 数据 库 。 


15.2.2 ”数据 仓库 和 商业 智能 


有 这 样 一 类 软件 ,专门 用 来 存储 和 处理 已 归档 的 数据 。 通常 这 些 数据 仓库 构建 在 已 有 的 事务 
数据 之 上 , 这些 数据 又 叫 事实 数据 。 通 过 对 数据 仓库 里 的 数据 进行 分 析 处 理 来 揭示 模式 ， 或 者 揭 
秘 趋势 。 所 有 归档 的 数据 都 是 只 谈 的 ， 儿 乎 不 需要 事务 。 这 些 数据 一 般 放 在 专门 的 数据 存储 中 ， 
它们 能 保存 大 量 数据 ， 按 照 多 维度 进行 分 析 。 

有 了 Hadoop 以 后 ,一 部 分 大 规模 分 析 就 通过 MapReduce 任务 来 完成 。 有 了 众多 项 目的 帮助 ， 
MapReduce 分 析 模 型 正在 逐渐 丰富 起 来 ， 这 些 项 目 包 括 查 询 工 具 Hive， 工 作 流 定义 高 级 语言 Pig 
等 。 此 外 ， 有 关 MapReduce 的 创新 仍 在 继续 。Apache Mahout 项 目 在 Hadoop 上 建立 机 融 学 习 的 
基础 设施 ， 使 人 们 可 以 通过 Mahout 在 Hadoop 的 MapReduce 基础 设施 上 运行 协同 过 滤 或 者 朴素 
册 叶 斯 分 类 希 。 
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15.3 Web 框架 和 NoSQL 


创建 可 扩展 的 Web 应 用 非 第 有 挑战 性 。 需 求 不 断 变 化 ， 数 据 在 持续 演进 。 这 种 情况 下 传统 
的 RDBMS 就 显得 有 些 不 太 灵 活 了。 有 些 时 候 ， 可 能 文档 数据 库 更 适合 。 








15.3.1 Rails 和 NoSQL 


Ruby on Rails 不 用 多 说 ， 它 是 目前 为 止 最 流行 的 敏捷 Web 开发 框架 。 由 于 坚持 约定 优 于 配 
置 ，Rails 让 Web 开发 变 得 轻松 有 趣 。 它 实现 了 MVC 框架 ，RESTful 动词 是 底层 模型 基础 的 默认 
操作 ，ActiveRecord 使 得 模型 对 象 能 上 自动 映射 到 关系 表 中 的 持久 化 数据 中 。 视 图 提供 界面 来 操纵 
抵 层 数据 ， 控 制 硕 协调 模型 和 视图 。 

WRH Rails 来 开发 ， 很 容易 就 能 用 MongoDB # MySQL, PostgreSQL 或 任何 其 他 
RDBMS, mongo mapper 提供 了 对 MongoDB 的 巨大 文 持 。 

要 在 Rails 中 使 用 MongoDB, ， 首 先 关 闭 ActiveRecord。 使 用 MongoDB 时 ,不 需要 ORM 层 。 
在 多 数 平台 上 安装 Rails 首先 要 有 Ruby 和 RubyGems， 然 后 执行 下 面 命令 : 

gem install rails 

安装 成 功 以 后 ， 很 容易 创建 新 应 用 并 指定 它 不 使 用 ActiveRecord。 创 建 不 市 ActiveRecord 的 
Rails 应 用 命令 如 下 : 

rails new sample app -skip-active-record 

下 面 ， 安 装 mongo mapper, L4 gem 形式 发 布 ， 安 装 命令 跟 上 面 差不多 : 

gem install mongo _ mapper 

安装 完 mongomapper 后 ， 将 其 添加 到 gemfile 里 ， 这 样 bundler 就 可 以 为 Rails 应 用 提供 
mongomapper 了 。 修 改 gemfile 如 下 : 


require 'rubygems' 
require 'mongo' 
source 'HLCpi//gemeutter.org' 

















gem "rails", "3.0.0" 
gem "mongo mapper" 


H TREH bson_ext 问题 ， 在 gem 定义 前 要 先 准 备 好 Mongo 和 rubygems. 
下 面 ， 运 行 bundler install 来 下 载 安 装 和 需要 的 gem, 
bundler 准备 好 以 后 ， 在 config/initializers 下 面 创建 一 个 初始 化 文件 ， 并 向 其 中 添加 
下 列 内 容 : 


MongoMapper.connection = Mongo::Connection.new('localhost', 27017; 
MongoMapper.database = "#sample app-t(Rails.env)" 














if defined? (PhusionPassenger) 
PhusionPassenger.on eventí(:starting worker process) do |forked 
MongoMapper.connection.connect if forked 
end 
end 
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下 面 是 利用 mongo mapper 的 一 个 简单 例子 : 
class UserData 


include MongoMapper::Document 


key :user id, Integer 
key :user name, String 
end 


下 面 用 控制 硕 来 持久 化 模型 对 象 : 
class MyActionController < ApplicationController 


def create user 


Qauser = UserData.create( 
1 
:user id => 1, 
:USer name => "John Doe", 
:updated at -» Time.now 


JJ 
QGauser.save() 
end 
end 


这 个 操作 可 以 通过 REST 风格 的 URL 触发 
get 'my action/create user' 


除 Rails 外 的 其 他 Web 框架 还 包括 Django (Python ) 和 Spring ( Java )。 


15.3.2. Django 和 NoSQL 


Django 之 于 Python fEDX , W3 Rails 之 于 Ruby 开发 者 。Django 是 轻 量 级 Web 框架 ,支持 原 
型 和 快速 开发 。Django 也 是 习惯 通过 ORM 将 模型 映 冉 到 数据 库 。SQL 标准 和 ORM 层 的 存在 使 
得 Django 可 以 替换 不 同 的 RDBMS, HEBR NoSQL 不 稼 有 。 事 实 上， 针对 特定 一 种 NoSQL 
编写 的 代码 是 如 此 特殊 ， 负 名 不 能 用 在 另 一 种 NoSQL 产品 上 。 其 实 大 家 痢 希 望 应 用 程序 能 无 缝 
支持 各 种 NoSQL 产品 ， 又 同时 支持 SOL 和 NoSQL 产品 。 

不 同 NoSQL 产品 的 索引 以 及 连接 数据 的 方式 各 有 不 同 。 要 让 Django 应 用 支持 多 种 NoSQL 
产品 ， 就 要 通过 为 每 种 NoSQL 各 目 编 写 索 引 管 理 和 数据 聚合 代码 。 

最 后 一 个 要 点 是 ， 我 们 知道 云 平台 上 NoSQL 很 流行 ， 但 是 要 在 这 些 平 人 台 之 间 移 植 相 当 有 难 
E, 例如 ,GAE ( Google App Engine ) 在 Google Bigtable 基础 上 提供 建 模 抽象 , 而 AWS ( Amazon 
Web Service ) 则 通过 SimpleDB 提供 托管 的 文档 数据 库 。 为 GAE 或 者 AWS 编写 的 Django 应 用 
会 和 平台 又 么 捆绑 在 一 起 ， 这 样 做 会 让 两 个 平台 之 间 迁 移 或 者 迁移 到 其 他 平台 都 变 得 极其 困难 。 
有 时 候 ， 这 种 迁移 儿 乎 要 求 重 写 应 用 ， 导 致 三 商 锁定 ， 并 增加 平台 迁移 的 财力 和 人 力 成 本 。 

django-nonrel 独立 开源 项 目 是 为 了 解决 这 些 问 题 而 建立 的 ， 它 为 Django 提供 公共 抽象 层 来 
支持 多 种 NoSQL 产品 。 项 目 源 码 地 址 :https://bitbucket.org/wkornewald/django-nonrel/src。 Waldemar 
Kornewald 和 Thomas Wanschik 是 该 项 目的 创建 人 和 核心 贡献 者 。 
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django-nonrel 对 Django 核心 的 修改 刚 够 文 持 RDBMS 以 外 的 数据 库 , 更 繁重 的 工作 则 交 给 了 
django-dbindexer， 它 负责 去 规范 化 和 连接 数据 集 。 

django-dbindexer 是 一 个 尚 处 于 早期 阶段 的 开源 项 上 日， 地 址 : https:/bitbucket.org/wkornewald/ 
django-dbindexer/src。 它 的 定位 是 NoSQL 数据 库 的 封装 层 ， 主 要 处 理 各 种 NoSQL 产品 的 差别 ， 
区 分 大 小 写 的 查询 和 连接 (join ) 都 是 在 这 层 处 理 的 。 例 如 ，MongoDB 里 不 区 分 大 小 写 的 过 小 不 
能 用 索引 。 而 全 表 扫 描 比 索引 效率 低 。 在 django-dbindexer 这 一 层 ， 这 种 低 效 过 滤 就 可 以 被 当 作 
是 区 分 大 小 写 的 过 小 ， 从 而 利用 到 索引 。 

缺失 RDBMS 里 SQL 这 样 强 大 的 公共 查询 语言 , 使 得 在 NoSQL 平台 上 支持 某 些 查询 变 得 很 
有 难度 。django-dbindexer 简化 和 标准 化 了 查询 API。 所 以 下 面 的 GAE 代码 : 


Y. # models.py: 


class MyModel (models.Model): 
name = models.CharField(max length-z04) 
lowercase name = models.CharField(max length-64, editable-False; 
last modified - models.DateTimeField(auto now-True) 
month last modified = models.IntegerField(editable-False) 





























def save(self, *args, **kwargs): 
self.lowercase name = selt.name.lowerí) 
self.month last modified - self.last modified.month 
super(MyModel, self).save(*args, **kwargs) 
def run query (name, month): 
MyModel.objects.filter(lowercase name-name.lower(í), 
month last modified-month) 


models.py 
可 以 被 替换 成 更 优雅 、 更 干净 和 可 重用 的 代码 : 


9 # models.py: 


class MyModel (models.Model): 
name = models.CharField(max length-064) 
last modified = models.DateTimeField(auto now-True) 


def run queryíname, month): 
MyModel.objects.filterí(name  iexact-name, last modified  month-month; 


# dbindexes.pv: 
from models import MyModel 


from dbindexer.api import register index 
register index(MyModel, í'name': 'iexact', 'last modified': 'month')) 





models with dbindexer.py 


更 多 内 容 可 以 阅读 django-dbindexer 的 文档 ,地 址 : www.allbuttonspressed.com/projects/django- 


nonrel, 
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15.3.3 ”使 用 Spring Data 


虽然 在 敏捷 开发 中 Rails 和 Django 算是 比较 流行 的 Web 框架 ,但 是 仍然 有 很 多 企业 开发 者 使 
用 Java 来 构建 新 的 应 用 。Spring 是 广泛 采用 的 Java 依赖 注入 框 染 , 它 通过 Spring Data 项 目 加 入 了 
对 NoSQL 的 支持 。 有 关 Spring Data 项 目的 信息 可 以 访问 : www.springsource.org/spring-data。 Spring 
Data 不 仅 为 许多 NoSQL 提供 抽象 屋 ， 同 时 还 简化 了 基于 MapReduce 的 处 理 以 及 访问 云 平台 。 

下 面 我 介绍 一 个 小 例子 用 Spring Data 访问 Redis。Spring Data 通过 子 项 目 支持 Redis, JH 
类 似 方 法 支持 其 他 NoSQL。 用 来 和 Redis 交互 的 Java 客户 端 类 库 早 就 有 了 ， 比 如 JRedis 
( http://code.google.com/p/jredis/ ) jedis ( https://github.com/xetorthio/jedis )。 Spring Data 通过 
RedisTemplate 对 这 些 Java 客户 端 类 库 进 行 抽象 ， 这 类 似 于 Spring 用 JdbcTemplate 抽象 掉 JDBC, 
用 HibernateTemplate 抽象 挥 Hibernate， 其 目的 是 对 开发 者 隐藏 底层 API 细 市 。 

首先 下 载 并 安 痛 Spring Data Redis 子 项 目 ， 地 址 : https://github.com/SpringSource/spring- 
data-keyvalue。, 为 了 简单 和 更 快速 地 开发 ,你 可 以 使 用 STS( SpringSource Tool Suite, SpringSource 
工具 套件 )， 用 项 目 模 板 来 创建 一 个 新 的 Spring 项 目 ，STS 地 址 是 : www.springsource.com/ 
developer/sts, STS 用 Maven 配置 和 构建 项 目 , 因此 定义 都 声明 在 项 目的 POM( project object model, 
项 目 对 和 象 模型 ) 里 。 更 多 有 关 Maven 的 内 容 可 以 访问 http://maven.apache.org/。 修 改 pom.xml 
文件 来 配置 它 就 是 要 使 用 Spring Data Redis 子 项 目 。 代 码 清单 15-1 列 出 了 典型 的 pom.xml 文件 
内 容 。 


* 代码 清单 15-1 Spring Data Redis Ji H POM 


«?xml version-"1.0" encoding-"UTF-8"'?» 
xmlins-"http://maven.apache.org/POM/A4.0.0" 
xmlns:xsi-"http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation-"http://maven.apache.org/POM/4.0.0 
http://maven.apache.org/maven-v4 0 0.xsd"» 
«modelVersion»4.0.0«/modelVersion-» 
«groupld»com.treasuryofideas.pronosql«/groupld» 
«artifactId»redis«/artifactId» 
«name»redis-dictionary«/name» 
«packaging»war«/packaging-» 
«version»1.0.0-BUILD-SNAPSHOT«/version-» 
«properties» 
«java-version»1.6«/java-version» 
«org.springframework-version»3.0.5.RELEASE«/org.springframework-version-» 
«org.springframework.roo-version»1.0.2.RELEASE«/org.springframework.roo- 
version» 
«org.aspectj-version»1.6.9«/org.aspectj-version» 
«redis.version»1.0.0.M2-SNAPSHOT«/redis.version-» 
«/properties-» 
«dependencies» 
«l-- Spring --- 
«dependency» 
«groupid»org.springframework«/groupid» 
«artifactId»spring-context«/artifactlid» 
«version»$[(org.springframework-version]«/version-» 
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«exclusions-» 
<!-- Exclude Commons Logging in favor of 
«span class-"hiddenSpellError" 
pre-"of "»SLP4j«/span» --> 
«exclusion» 
«grouplId»commons-logging«/groupld» 
«artifactId»commons-logging«/artifactid» 
«/exclusion-» 
«/exclusions-» 
</dependency> 


«!-- <span class-"hiddenSpellError" 
pre-""-AspectJ«/span» 一 一 > 
<dependency> 
«groupld»org.aspectj«/groupld» 
«artifactId»aspectjrt«/artifactId» 
«version»S$í(org.aspectj-version]«/version-» 
«/dependency» 


«dependency» 
«groupId»1og4j«/groupId» 
«artifactlId»log4j«/artifactlId» 
«version»1.2.15«/version» 


«exclusions- 
«exclusion» 


«grouplId»javax.mail«/groupId-» 
«artifactlId»mail«/artifactlId» 

«/exclusion» 

«exclusion» 
«groupId»Jjavax.;jms«/groupId» 
«artifactId»jms«/artifactId» 

«/exclusion-» 

«exclusion» 
«groupId»com.sun.jdmk«/groupId-» 
«artifactId»jmxtools«/artifactId» 

«/exclusion» 

«exclusion» 
«groupId»com.sun.jmx«/groupId- 
«artifactId»jmxri«/artifactId» 

«/exclusion» 

«/exclusions» 
«scope»runtime«/scope-» 
«/dependency» 


«1!-- QInject --- 

«dependency» 
«groupId»javax.inject«/groupId» 
«artifactId»javax.inject«/artifactId» 
«version»1«/version» 

</dependency> 





<xl-- Test --> 

«dependency» 
<groupId>junit</groupId> 
<artifactId>junit</artifactId> 
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«version»4.8.1«/version» 
«scope»test«/scope» 
</dependency> 


<dependency> 
<groupId>org.springframework.data</groupId> 
<artifactId>spring-data-redis</artifactId> 
<version>${redis.version}</version> 
</dependency> 


<dependency> 
«groupId»org.springframework.data«/groupId» 
«artifactlId»spring-data-keyvalue-core«/artifactlId» 
«version»S[redis.version]«/version» 

</dependency> 


<dependency> 
<groupId>org.springframework</groupId> 
<artifactId>spring-aop</artifactId> 
<version>${org.springframework-version}</version> 

</dependency> 

<dependency> 
«groupId»org.springframework«/groupId» 
«artifactId»spring-aspects«/artifactlId» 

«version»$[([org.springframework-version]«/version» 

«/dependency» 


«dependency» 
«groupld»org.apache.commons«/grouplId» 
«artifactid»-commons-io«/artifactlid» 
«version»1.3.2«/version» 

</dependency> 


<dependency> 
<groupId>org.springframework</groupId> 
<artifactId>spring-test</artifactId> 
<version>${org.springframework-version}</version> 
«scope»test«/scope» 
«exclusions-» 
«exclusion» 
«groupId»commons-logging«/groupId» 
«artifactId»commons-logging«/artifactId» 
«/exclusion» 
«/exclusions-» 
</dependency> 
</dependencies> 
<repositories> 
<repository> 
<id>spring-maven-milestone</id> 
Springframework Maven Repository 
«url»http://maven.springframework.org/milestone«/url-» 
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«/repository» 

«repository» 
«id»spring-maven-snapshot«/id» 
«snapshots» 

«enabled»true«/enabled-» 

«/snapshots-» 

Springframework Maven SNAPSHOT Repository 

«url»http://maven.springframework.org/snapshot«/url» 

«/repository» 
«/repositories-» 
<build> 

«plugins» 

«plugin» 
«groupId»org.apache.maven.plugins«/groupId- 
«artifactlId»maven-compiler-plugin«c/artifactlId» 
«configuration» 

«gource»$íjava-version]«/source» 
«target»$íjava-version])«/target» 
«/configuration» 

«/plugin» 

«plugin» 
«groupId»org.apache.maven.plugins«/groupId» 


«artifactId»maven-dependency-plugin«/artifactlId» 
«executions» 


«execution» 
«id»install«/id-» 
«phase»install«/phase- 
«goals» 

«goal»sources«/goal- 
«/goals» 
«/execution» 
«/executions-» 
«/plugin» 
«/plugins» 
</build> 
«/project» 


lagSynonyms 
Maven 让 构建 项 目 、 定 义 依 赖 和 管理 依赖 的 工作 变 得 简单 轻松 。 前 面 的 POM 文件 定义 了 构 
建 项 目 所 需 的 所 有 外 部 依赖 。 用 POM 文件 管理 项 目 生命 周期 时 外 部 库 就 会 下 载 并 配置 好 。 
下 面 用 Redis 和 Spring Data 写 一 个 简单 例子 。 这 个 例子 是 构建 一 个 标签 同义词 表 。 在 这 个 表 
里 ,一 个 标签 作为 键 , 所 有 含义 相同 或 近似 的 标签 组 成 值 。 比 如 “Web” 作 和 键 ,“internet” 和 “www” 
作 值 ， 这 种 表 用 Redis 列表 很 容易 实现 。 要 通过 Spring 访问 这 个 存储 ， 需 要 先 创建 DAO 类 ， 如 
代码 清单 15-2 所 示 。 
32 代码 清单 15-2 TagSynonymsDao 


import org.springframework.data.keyvalue.redis.core.RedisTemplate; 


public class TagSynonymsDao ( 


private RedisTemplate«String, String» template; 
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public TagSynonymsDao(RedisTemplate template) { 
this.template - template; 
) 


public Long addSynonymTag(String keyTag, String synonymTag) { 
Long index = template.opsForList()].rightPush(keyTag, synonymTag); 
return index; 


} 


public List getAllSynonymTags(String keyTag) { 
List«String» synonymTags = template.opsForListí().range(word, 0, -1); 
return synonymTags; 


) 


public void removeSynonymTagsí(String... synonymTags) { 
template.delete(Arrays.asList(synonymTags)); 


lagSynonyms 





上 述 程序 通过 标签 同义词 表演 示 了 RedisTemplate。 数 据 访问 类 通过 模板 与 Redis 交互 ， 用 
RedisTemplate 里 定义 的 方法 来 搬入 元 系 、 执 行 范围 查询 或 删除 元 系 。 

例子 到 此 为 止 , 硕 望 通过 例子 能 让 你 对 这 个 抽象 层 有 一 些 感 党 , 它 可 以 文 持 不 同 的 NoSQL, 
并 让 你 在 RDBMS 和 NoSQL 之 间 平 滑 切换 。 


15.4 ”从 RDBMS 迁移 到 NoSQL 


从 结构 化 的 schema XE 42 $155; schema 形式 不 算 太 难 , 很 多 时 候 就 是 把 RDBMS 表 里 的 数据 导 
人 NoSQL 集合 而 已 。 不 过 如 有 果 NoSQL 数据 库 是 列 族 有 序 存储 ， 或 者 键 / 值 存储 ， 那 就 复杂 多 了 。 
更 改 范式 往往 意味 春 重 新 设计 。 

更 大 的 问题 是 专门 查询 和 次 级 索引 ， 这 些 在 NoSQL 环境 里 往往 不 容易 实现 。NoSQL 更 是 从 
查询 的 角度 来 看 数据 ， 而 不 是 从 通用 存储 来 看 。 

为 了 便于 从 RDBMS 导入 数据 到 Hadoop 中 进行 NoSQL 风格 的 处 理 , Cloudera 创建 了 一 个 开 
源 项 目 Sqoop。Sqoop 是 命令 行 工 具 ， 有 下 列 功能 。 

口 将 单个 RDBMS 表 或 整个 数据 库 导 人 HDFS 的 文件 中 。 

口 生成 Java 类 来 访问 被 导入 数据 。 

OQ LIFA SQL 数据 库 直 接 导 和 Hive 数据 仓库 。 

更 多 Sqoop 内 容 请 访问 : https://github.com/cloudera/sqoop. 























15.5 小结 





本 章 介绍 不 同 种 类 数据 库 共 存 的 主题 ， 展 示 同 时 使 用 RDBMS 和 NoSQL 的 方法 。 文 中 引用 
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了 大 型 社交 媒体 的 例子 以 便 从 中 汲取 灵感 ，Facebook、Twitter 和 LinkedIn 的 例子 都 有 所 提 到 。 

随后 简要 介绍 弥补 了 RDBMS 和 NoSQL 之 间 空 白 的 产品 ,并 通过 例子 介绍 了 流行 框架 Rails、 
Django 和 Spring 对 RDBMS 和 NoSQL 的 支持 。 

最 后 ， 简 要 谈 到 从 RDBMS 迁移 到 NoSQL 的 话题 ， 以 展示 数据 可 以 从 表 中 导入 到 更 适 于 
MapReduce 风格 分 析 的 结构 中 。 

下 一 章 介绍 性 能 调 校 的 话题 。 
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本 章 内 容 

OQ 理解 影响 并 行 可 扩展 应 用 的 因素 

OQ 优化 并 行 处 理 ， 特 别 是 利用 MapReduce 模型 的 处 理 
O 展示 一 组 并 行 处 理 的 最 佳 实践 

口 演示 一 些 Hadoop 性 能 调 校 小 秘诀 














人 大 , NoSQL 中 主要 的 大 数据 分 析 都 是 在 MapReduce 模型 上 进行 的 处 理 。Hadoop 就 构 

7 建 在 这 个 模型 上 ,而 且 每 种 支持 海量 数据 的 NoSQL 产品 都 利用 了 这 个 模型 。 本 章 我 们 
了 解 对 MapReduce 风格 大 数据 处 理 和 相关 应 用 的 调 优 。 当 然 本 和 草 提 供 的 不 是 标准 解决 方案 ， 而 
是 一 些 在 调 优 并 行 可 扩展 应 用 时 值得 记 住 的 重要 概念 和 实践 。 任 何 优化 问题 都 是 和 它 的 需求 、 场 
景 县 县 相关 的 ， 所 以 提出 一 个 适用 于 所 有 情况 的 通用 方案 可 能 不 太 可 行 。 


16.1 ”并行 算法 的 目标 
MapReduce 极 大 地 简化 了 可 扩展 并 行 处 理 。 通 过 坚持 在 并 行 线程 或 进程 间 不 共享 数据 ， 


MapReduce 因此 而 创造 出 一 种 无 瓶颈 的 方式 ,能 随 着 负载 增加 不 断 向 外 扩展 。 本 质 上 目标 永远 都 
是 减少 延迟 和 增加 吞吐 。 























16.1.1 减少 延迟 的 含义 


简单 说 减少 延 返 就 是 减少 程序 执行 时 间 。 程 序 完成 得 越 快 ( 给 定 输入 得 到 计算 结 来 的 耗 时 
越 少 )， 延 运 就 越 小 。 输 入 输出 不 变 的 情况 下 ,减少 延 返 通 第 需要 选择 最 优 算法 ， 并行 执 行 于 任 
务 。 如 果 一 个 任务 能 分 解 成 一 组 独立 的 、 可 并 行 执行 的 任务 ， 那 么 并 行 执行 可 以 减少 完成 总 任 
务 的 耗 时 。 因 此 在 并 行程 序 中 ， 延 迟 实际 上 可 通过 最 小 “原子 "任务 的 耗 时 来 度量 。 “原子 ”的 含 
义 是 说 工作 单元 无 法 进一步 分 解 成 并 行 子 任务 。 如 末 不 能 并 行 化 ， 那 延迟 就 是 执行 整个 程序 的 
耗 时 。 

在 优化 算法 的 同时 ， 需 牢记 算法 要 符合 map 和 reduce KARAL, AR, UMR, AEK 
数 可 以 授 历 多 次 。 
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16.1.2 ”如 何 增加 吞吐 


否 吐 是 指 给 定 进程 ( 过程 ) 可 以 处 理 ( 并 产生 结果 ) 的 输入 量 。 对 大 数据 ， 否 吐 往 往 更 重要 ， 
有 时 甚至 牺牲 延迟 ,因为 分 析 大 数据 可 不 是 小 事 。 比 如 ,Twitter 的 Kevin Weil 在 2010 年 Web 2.0 Expo 
的 演讲 上 (www.slideshare.net/kevinweil/analyzing-big-data-at-twitter-web-20-expo-nyc-sep-2010 ) 提 到 
Twitter 每 天 的 微 博 量 达到 12TB。 如 末 人 磁盘 写 入 速度 只 有 80Mbps, 那么 多 数据 要 48 小 时 才能 写 完 。 
这 样 的 故事 到 处 都 在 发 生 ， 比 如 Facebook 和 Google， 他 们 的 用 户 流量 每 天 也 会 产生 大 量 数 据 。 

Hadoop 文 持 分 析 大 数据 ， 其 至 大 到 一 台 机 各 都 放 不 下 。 在 传统 的 单机 系统 中 ， 否 吐 常 受 可 
用 资源 限制 。 比 如 RAM 的 大 小 或 是 CPU 的 数量 或 频率 决定 了 一 人 台 机 硕 的 处 理 量 。 只 要 数据 持续 
增长 下 去 ， 青 强力 的 机 右 也 会 达到 上 限 。 在 利用 Hadoop 分 布 式 文件 系统 ( HDFS) 的 环境 中 ， 
这 种 限制 不 再 是 那么 严重 的 问题 。 集 群 增加 节点 束 能 处 理 更 多 数据 。 并 行 化 的 一 个 副作用 是 普通 
的 了 商业 便 件 ( 和 更 强 的 机 右 相 比 ) 能 够 帮助 有 效 地 增加 否 吐 。 


16.1.3 ”线性 扩展 


在 基于 MapReduce 的 模型 中 ， 处 理 通 稼 是 并 行 的 ， 而 扩展 是 线性 的 。 如 果 集 群 一 个 和 点 
每 秒 能 处 理 xMB 数据 ， 则 nn 个 市 点 每 秒 能 处 理 n 乘 xMB 数据 。 反 过 来 说 ， 就 是 数据 每 增加 x 
MB, 保持 同样 的 处 理 速 度 就 要 增加 一 个 新 节点 。 男 外 ， 如 果 所 有 市 点 负载 都 一 样 ， 那 么 只 要 
增加 负载 同时 增加 新 节点 ， 处 理 时 间 就 能 保持 不 变 。 如 果 数 据 不 变 ， 增 加 节点 ， 则 处 理 时 间 等 
比例 减少 。 

数学 表达 如 下 。 

口 单 市 点 处 理 数据 量 y 耗 时 =t 秒 。 

O NB ARABES EE y FER] tn 秒 。 

公式 假定 任务 可 以 分 成 同等 的 工作 单元 ， 每 个 单元 处 理 时 间 大 致 相同 。 


16.2 公式 与 模型 


Hadoop 的 关键 贡献 者 之 一 Milind Bhandarkar 在 有 关 扩 展 Hadoop 应 用 的 主题 演讲 中 用 三 个 车 
名 公式 进行 了 总 结 。 

口 Amdahl 法 则 

口 Little 法 则 

口 消息 成 本 模型 


























16.2.1 Amdahl 法 则 


Amdahl 法 则 用 来 找 出 系统 局 部 改进 对 整体 性 能 的 最 大 提升 。Amdahl 法 则 取 名 自 Gone ETE 
Amdahl ( www.computer.org/portal/web/awards/amdahl )， 车 名 计算 机 染 构 师 ， 曾 为 创造 IBM 大 型 
机 作出 了 页 献 。 
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下 面 用 例子 扼要 解释 Amdahl 法 则 。 假 设 某 个 程序 运行 需要 5 小 时 ， 除 一 小 部 分 以 外 ， 剩 下 
部 分 都 能 并 行 执行 ， 不 能 并 行 执行 的 这 部 分 耗 时 25 分 钟 ， 那 么 它 就 定义 了 整个 程序 能 达到 的 最 
佳 速度 。 基 本 上 ， 程 序 的 线性 部 分 限制 着 程序 的 性 能 。 

用 数学 方式 表达 这 个 例子 如 下 。 

O 程序 总 执行 时 间 : 5 小 时 ( 300 分 钟 )。 

口 顺序 执行 时 间 : 25 分 钟 。 

a 程序 可 并 行 部 分 : 约 91.6。 

a 程序 不 可 并 行 部 分 (或 本 质 上 是 顺序 的 ) 8.4。 

口 因此 ， 并 行 版 比 非 并 行 版 最 多 提升 速度 1/(1—0.916) = 11.9. 

换 句 话说 ， 同 一 个 程序 ， 完 全 并 行 化 的 版 本 比 没有 并 行 化 的 版 本 快 11 fi. 

Amdahl 法 则 将 提升 速度 的 计算 概括 为 如 下 表达 式 : 

1/((1 — P) + P/S) 

其 中 忆 表 示 并 行 化 的 部 分 ，S 是 并 行 化 部 分 与 非 并行 化 部 分 性 能 之 比 。 

该 等 式 还 考虑 了 程序 不 同 部 分 提速 不 同 的 情况 。 比 如 ， 一 个 程序 可 以 并 行 化 为 四 部 分 : P1 
P2、P3 和 P4， 分 别 占 比 10%、30%、40% 和 20%。 如 果 P1 增 速 2 倍 、P2 为 3 倍 、P3 为 4 倍 ， 
P4 无 增 速 ， 则 整体 运行 时 间 如 下 : 

0.10/2 + 0.30/3 + 0.40/4 + 0.20/1 = 0.45 

因此 最 大 增 速 为 1 /0.45 = 2.22， 超 过 原来 程序 2 倍 。 

更 多 有 关 Amdahl 法 则 的 内 容 请 参阅 : www-inst.eecs.berkeley.edu/~n252/paper/Amdahl.pdf。 

Amdahl 法 则 对 MapReduce 和 多 核 编 程 同 等 适用 。 

















Gustafson 法 则 ( http://citeseerx.ist.psu.edu/viewdoc/summary?doi-10.1.1.85.6348 ) 
重新 评估 了 Amdahl 法 则 并 指出 : 同样 的 时 间 里 ， 提 供 更 多 计算 资源 就 能 解决 
更 复杂 的 问题 ， 越 简单 的 问题 消耗 资源 越 少 。 因 此 ，Gustafson 法 则 与 程序 线 
性 部 分 对 可 扩展 性 限制 的 理论 相 矛 盾 , 特别 是 在 用 更 多 计算 资源 执行 复杂 、 有 


重复 性 的 大 型 任务 时 。 


16.2.2 Little 法 则 


Little 法 则 适用 于 并 行 计算 ， 源 自 经 济 学 和 队列 理论 。 它 表面 上 看 起 来 很 简单 ， 不 过 却 提供 
了 概率 分 布 无 关 的 方式 来 分 析 稳 定 系 统 的 负载 。 法 则 指出 : 稳定 系统 的 平均 客户 数 是 平均 到 达 率 
与 客户 在 系统 中 停留 时 间 的 乘积 。 公 式 如 下 : 

OL *= kW* 

口 工 是 稳定 系统 的 平均 客户 数 

口 大 是 平均 到 达 率 

Q 灰 是 客户 在 系统 中 的 停留 时 间 
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为 了 进一步 理解 ,假设 有 个 系统 ， 比 方 说 一 个 加 气 站 ， 只 有 一 个 收 球台 ， 只 收 现金 。 如 来 每 
小 时 有 4 位 顾客 进 站 加 气 ， 每 位 顾客 在 加 气 站 保留 15 分 钟 (0.25 小 时 )， 则 任意 时 刻 加 气 站 平均 
有 1 位 顾客 。 如 采 同 一 时 刻 到 达 加 气 站 的 顾客 数 超过 4 个 ,很 明显 系统 会 出 现 瓶 令 。 如 采 顾 客 因 
为 等 待 时间 过 长 ， 不 耐烦 而 离开 《没有 加 气 )， 很 可 能 退出 率 大 于 到 达 率 ， 这 种 情况 下 系统 将 变 
得 不 稳定 。 

从 Little 法则 的 观点 来 看 系统 ， 把 进程 看 作 是 顾客 ， 将 其 转换 成 并 行程 序 后 ， 需 要 消耗 一 定 
的 时 间 丈 才 能 完成 执行 ， 系 统 任何 时 间 最 多 只 能 容纳 工 个 进程 ， 则 定 长 时 间 内 进程 的 到 达 率 不 
能 超过 L/W。 如 来 到 达 率 超 『 了 ， 系 统 就 会 阻 窒 ,计算 耗 时 和 系统 容量 都 会 受到 影响 。 


16.2.3 ”消息 成 本 模型 


第 3 个 等 式 是 消息 成 本 模型 。 消息 成 本 模型 把 端 到 端的 消息 发 送 成 本 分 解 成 固定 成 本 和 背 动 

成 本 。 人 简单 说 来 ， 消 息 成 本 模型 的 公式 如 下 。 
C *= *g *+ *bN 

DC 是 消息 从 4 MmT] Bt) AS e 

口 a 是 发 送 消 息 的 前 置 成 本 。 

口 b 是 消息 每 学 市 的 成 本 。 

口 和 是 消 息 的 字 节 数 。 

这 个 等 式 很 简单 ， 其 中 有 两 个 关键 点 : 

口 无 论 消息 有 多 大 ， 凡 传输 必 涉 及 固定 成 本 。 对 消息 来 说 ， 建 立 连 接 、 握 手 和 配置 的 成 本 

是 很 常见 的 。 

口 传输 本 身 的 成 本 与 消息 的 大 小 线性 相关 。 

消息 成 本 模型 对 网 络 传 输 消 息 提 供 了 一 些 很 有 趣 的 见解 。 在 干 兆 以 太 网 上 ，a 大概 是 300 微 
妙 , 即 0.3 上 毫秒 ,b 是 125MB 每 秒 ,1 Gigabit 是 1000Mb( 125MB ), 千 兆 以 太 网 传输 速率 为 125MBps。 
每 秒 125MB 的 成 本 和 每 室 秒 125KB 的 成 本 相同 ,因为 1000 训 秒 是 1 秒 ，1000KB 是 1MB。 也 就 
是 说 100 个 10KB 的 消息 需要 100 x (0.3+ 10/ 125)z& &b, Bp 38 毫秒 , 而 10 个 100KB 的 消息 只 需 
要 10 x (0.3 + 100/125)z&fb, EP 11 毫秒 。 因 此 ， 一 种 优化 成 本 的 方法 就 是 每 次 发 送 的 消息 要 尽 
可 能 大 ， 这 样 固定 成 本 就 被 分 摊 到 更 大 的 消息 上 。 
































理论 计算 时 , 消息 成 本 模型 中 的 固定 成 本 a 对 不 同 大 小 的 消息 都 一 样 , 但 


实际 上 4 值 会 受 消息 大 小 影响 。 





16.3 分 区 


并 行 计算 中 很 重要 的 一 点 就 是 分 区 。 在 MapReduce 中 ， 每 个 reducer 形成 一 个 分 区 。map BT 
段 生 成 的 键 / 值 对 被 reducer 消费 。 由 于 MapReduce 选择 无 共享 的 处 理 模 型 ， 因 此 键 相 同 的 键 / 值 
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对 必须 去 同一 个 分 区 ， 并 由 同一 个 reducer 处 理 。 

Hadoop MapReduce f£ZE PE Y. f AIT partitioner: HashPartitioner.HashPartitioner 
利用 键 的 nasncoae 方法 的 返回 值 来 分 区 。 也 就 是 说 ,，“hashCode 值 ” 模 “ 分 区 数 ”=n(n 用 来 
将 键 / 值 对 分 发 到 不 同 分 区 上 )。 

Hadoop 用 接口 Partitioner 来 决定 map 任务 生成 的 键 / 值 对 分 发 到 哪个 分 多。 分 区 数 即 reduce 
任务 数 ， 在 任务 启动 时 是 已 知 的 。Partitioner 接口 如 下 : 


public interface Partitioner«K, V» extends JobConfigurable { 
int getPartition(K key, V value, int numPartitions); 


getPartition 方法 接受 键 、 值 和 分 区 数 作 为 参数 ， 返 回 一 个 分 区 号 ， 此 分 区 号 标识 了 键 / 
值 对 应 被 分 发 到 的 分 区 。 对 任意 两 个 键 k1 和 k2， 如 果 k1 和 k2 相等 ，getPartition 返回 的 
分 区 号 也 相等 。 

如 果 根 据 键 / 值 对 进行 分 区 不 均衡 ， 就 可 能 出 现 人 负载 不 均衡 或 过 度 分 区 的 情况 ， 两 者 都 低 效 。 
如 果 少 数 reducer 处 理 大 部 分 负载 ， 而 剩 下 的 空闲 ， 束 是 负载 不 均衡 。 不 均衡 会 增加 延迟 。 机 硕 
和 磁盘 在 满 负荷 下 容易 变 得 更 慢 ， 或 触发 边界 条 件 降低 效率 。 人 负载 不 均衡 就 会 导致 部 分 reducer 
屎 成 满 负 傈 状态 。 

从 前 面 的 Amdahl 法 则 我 们 知道 , 任何 并 行 优化 都 受制 于 最 长 的 顺序 任务 。 在 MapReduce 处 
理 中 ， 较 长 时 间 执 行 会 导致 瓶 句 。 它 也 会 导致 后 续 的 等 符 ， 因 为 reduce 和 grouping 任务 只 有 处 
理 完 所 有 键 / 值 对 以 后 才 完 成 整个 处 理 。 


16.4 规划 异 构 环境 


Hadoop 默认 的 规划 算法 通过 比较 每 个 任务 的 进度 和 平均 进度 来 规划 任务 。 默 认 的 scheduler 
做 了 下 列 假设 : 

OQ 方 点 工作 速 这 不 变 ; 

O 任务 执行 的 行 吐 不 变 。 

在 异 构 环 境 中 ， 黑 认 scheduler 算法 不 够 优化 ， 因 此 需要 专门 为 异 构 环 境 做 一 些 改进 。 

LATE ( Longest Approximate Time to End ) scheduler 在 默认 Hadoop scheduler 上 做 了 改进 。 
LATE scheduler 只 在 较 快 的 节点 上 执行 speculative 任务 ， 它 还 限制 了 被 speculate 的 任务 数 。 此 外 
还 有 一 个 慢 任 务 阀 值 来 决定 一 个 任务 是 否 慢 到 了 要 speculate. 

虽然 LATE scheduler 对 默认 的 scheduler 做 了 改进 ， 但 这 两 个 scheduler 都 是 静态 地 计算 任务 
进度 。SAMR ( 目 适 应 MapReduce 规划 算法 ) 的 性 能 超过 了 它们 。 更 多 有 关 SAMR 的 内 容 可 以 阅 
该 论文 “SAMR: A Self-adaptive MapReduce Scheduling Algorithm in Heterogeneous Environment" , 
作者 是 Quan Chen, Dagiang Zhang, Minyi Guo, Qianni Deng 和 Song Guo. 论文 在 线 地 址 : 
http://portal.acm.org/citation.cfm?1d-1901325, 
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16.5 ”其 他 MapReduce 调 校 
有 很 多 配置 参数 会 影响 MapReduce， 可 以 通过 合理 地 配置 它们 来 实现 更 好 的 性 能 。 


16.5.1 通信 成 本 


有 时 数据 量 太 大 , MapReduce 算法 复杂 度 不 是 那么 重要 , 这 时 的 关注 点 更 集中 在 如 何 开 始 处 
理 大 数据 上 。 但 是 请 记 住 , 尽 可 能 地 移 除 reduce 任务 可 以 最 小 化 一 些 通讯 成 本 和 相关 的 算法 复杂 
度 。 这 种 情况 下 map 阶段 完成 所 有 事情 。 如 果 不 可 能 消灭 所 有 reduce 任务 ， 那 么 在 所 有 map ff 
务 完 成 前 启动 reduce 任务 也 可 以 提升 性 能 。 

















16.5.2 ”压缩 


当 数 据 在 节点 间 ， 在 map 和 reduce 任务 间 传 输 时 ， 对 数据 进行 压缩 能 显 震 改 善 性 能 。 这 样 
能 减少 通讯 成 本 ,减少 市 完 和 网 络 使 用 。 对 大 型 集群 和 较 大 的 任务 ， 压 顷 能 市 来 很 多 好 人 处 。 











有 些 数据 不 易 压缩 ， 或 者 压缩 不 足以 提供 很 多 好 处 。 


打开 压缩 就 是 将 一 个 配置 项 设 为 true 这么 徐 单 。 这 个 配置 项 是 : 
mapred.compress.map.output 


压缩 算法 也 可 配置 。 用 mapredq.map .output .compression.codec 来 配置 。 


LZO 是 适用 实时 压缩 的 算法 , 它 偏 重 压缩 速度 而 非 压 缩 率 。 更 多 有 关 工 ZO 


算法 内 容 参 阅 : www.oberhumer.com/opensource/lzo/。 





更 进一步 的 改善 是 使 用 可 分 割 LZO 算法 。 绝 大 部 分 MapReduce 任务 都 是 IO 密集 的 。 如 果 
HDFS 上 的 文件 能 压缩 成 一 种 可 分 割 的 ， 叉 能 直接 被 MapReduce 任务 消费 的 格式 ，IO 和 整体 性 
能 就 都 可 以 得 到 改善 。 用 普通 gzip 压缩 算法 并 行 分 割 gzip 段 会 产生 问题 ， 所 有 分 割 部 分 必须 由 
同一 个 mapper 处 理 。 如 果 只 用 一 个 mapper， 那 并 行 化 就 会 受到 影响 。bzip2 避免 了 这 个 问题 ， 分 
割 部 分 可 以 发 送 给 不 同 的 mapper， 但 是 解压 缩 是 CPU 密集 的 ， 因 此 VO 上 省 下 来 的 时 间 又 耗 在 
CPU 上 。LZO 是 比较 好 的 折 中 ， 大 小 和 解压 速度 都 不 错 。 更 多 有 关 可 分 割 LZO 算法 的 内 容 请 参 
阅 : https://github.com/kevinweil/hadoop-lzo。 


16.5.3 ”文件 块 大 小 


Hadoop 的 底层 分 布 式 文件 系统 HDFS 支持 存储 非常 大 的 文件 。HDFS 块 大 小 默认 是 64MB。 
如 果 集 群 比较 小 ， 但 是 数据 又 很 大 ， 用 默认 块 大 小 会 生成 大 量 map 任务 。 例 如 120GB 输入 会 创 
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建 1920 个 map 任务 。 计 算 如 下 : 
(120 * 1024) / 64 
因此 , 较 小 的 集群 可 以 适当 提高 块 大 小 。 当 然 别 提 得 太 高 , 以 至 于 集群 所 有 节点 都 用 不 上 了 。 


16.5.4 ”并行 复制 


map 的 输出 通过 复制 传 给 reducers WA map 任务 的 输出 很 大 ， 束 可 以 用 多 个 线程 并 行 复制 。 
增加 线程 会 增加 CPU 使 用 率 , 但 能 减少 延迟 。 默认 线 程 数 是 5。 可 以 设置 下 面 这 个 配置 项 来 增加 
线程 数 : 


mapred.reduce.parallel.copies 





16.6 HBase Coprocessor 


HBase coprocessor 的 灵感 来 日 Google Bigtable 的 coprocessor。 一 些 简 单 的 处 理 ， 例 如 计数 、 
聚合 之 类 可 以 放 在 服务 硕 端 进行 以 提高 性 能 。Coprocessor 就 实现 了 这 个 想法 。 

HBase 中 有 三 个 接口 实现 了 coprocessor 框架 ， 它 们 分 别 是 Coprocessor, RegionObserver 和 
Endpoint, 通过 重 载 Coprocessor 和 RegionObserver 的 方法 来 插入 用 户 代 码 , coprocessor 框架 负责 
调用 这 些 方法 。 能 通过 加 载 多 个 Coprocessor 或 RegionObserver 来 扩展 方法 。 它 们 链接 起 来 顺序 
调用 ，coprocessor 的 调用 顺序 是 由 优先 级 决定 的 。 

通过 服务 融 端的 端点 和 客户 端 类 库 提 供 的 动态 RPC， 你 可 以 目 定 义 扩 展 客户 端 和 region 
server 之 间 的 RPC 事务 。 


16.7 布 隆 过 滤器 


布 隆 过 滤 需 在 第 13 革 介 绍 过 。 如 果 不 清楚 它 的 定义 ， 可 以 先 回 顾 一 下 。 

目前 在 HBase 中 , 获取 行 记录 的 调用 会 从 region 的 所 有 StoreFile 中 并 行 获取 行 记 录 , 导致 Y 
次 磁盘 旋 取 。 布 隆 过 滤器 提供 轻 量 级 内 存 结构 来 减少 人 磁盘 读 取 , 从 读 取 NN 次 到 只 是 读 取 很 可 能 包 
含 行 记录 的 文件 。 

由 于 读 取 是 并 行 的 ， 所 以 对 单个 get 的 调用 在 性 能 上 没有 多 少 帮 助 。 而 且 读 的 性 能 取决 于 人 磁 
描 读 的 延 人 返 。 如 有 果 把 并 行 get 调用 换 成 顺序 调用 ， 布 隆 过 小 各 对 读 取 延迟 的 影响 就 很 明显 了 。 

布 隆 过 滤 关 有 可 能 比 数据 更 大 ， 这 是 默认 不 开局 它 的 一 个 重要 原因 。 


























16.8 小结 


本 章 介 绍 了 一 些 MapReduce 并 行 处 理 的 性 能 调 优 技术 。MapReduce 算法 使 得 我 们 可 以 用 普 
通商 业 机 来 处 理 大 量 数 据 。 扩 展 MapReduce 算法 需要 一 些 配置 。 优 化 的 MapReduce 配置 可 以 提 
高 性 能 。 

本 章 展 示 的 性 能 调 优 方法 是 通用 的 ， 只 是 用 了 Hadoop 及 相关 工具 来 演示 。 
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本 章 内 容 

口 了 解 监测 管理 NoSQL 的 各 种 工具 

口 了 解 日 志 处 理 、MapReduce 管理 及 搜索 相关 工具 
口 演示 与 管理 可 扩展 性 、 健 壮 性 有 关 的 工具 





Iu E NoSQL, 最 初 的 目标 帮助 你 熟悉 领域 ， 而 非 成 为 某 种 NoSQL 产品 专家 。 

为 此 我 尽 可 能 多 地 介绍 了 相关 的 概念 和 不 同类 型 的 NoSQL 产品 。 现 在 这 个 目标 已 经 达 

到 ， 你 得 到 了 足够 多 的 材料 ， 对 这 个 发 展 中 领域 的 基本 构成 也 有 了 一 定 的 把 握 和 信心 。 最 后 一 曹 

我 们 再 加 一 把 油 。 本 章 不 再 介绍 更 多 的 概念 ， 而 是 介绍 一 些 既 有 趣 又 重要 的 工具 和 实用 程序 , 使 

用 NoSQL 时 它们 可 能 雍 得 上 有 用场。 我 给 出 的 工具 列表 不 是 很 完备 ， 也 不 是 最 佳 工 具 集 合 ， 只 是 
比较 有 代表 性 。 

本 章 内 容 围 绕 着 14 种 不 同 的 工具 或 实用 程序 来 组 织 , 它们 都 是 开源 的 , 并且 可 以 随意 获取 。 
尽管 这 些 工 具 都 与 NoSQL 相关 , 不 过 它们 之 间 是 相互 独立 的 。 这 意味 厦 你 可 以 从 头 顺序 谈 到 尾 ， 
也 可 以 直接 翻 看 介绍 某 个 工具 的 特定 页 。 

前 几 种 工具 ,特别 是 RRDTool 和 Nagios, 不 仅 对 NoSQL 系统 有 用 ,其 监控 与 管理 功能 对 所 
有 类 型 的 分 布 式 系统 也 都 很 有 用 。 




















17.1 RRDTool 


RRDTool 是 开源 工具 ,用 来 做 高 性 能 日 志和 进行 时 间 序 列 数据 的 图 形 化 。 它 能 很 好 地 继承 命 
令 行 脚本 及 许多 脚本 语言 ， 包 括 Python, Ruby, Perl, Lua 和 Tele RRDTool 用 C 编写 ， 可 以 编 
译 到 大 部 分 平台 上 , 支持 在 Linux, Windows 和 Mac OS XX 上 运行 。 下载 地 址 : http://oss.oetiker.ch/ 
rrdtool/。 

RRDTool 包含 数据 库 和 图 形 生 成 与 泻 染 环境 。RRDTool 数据 库 不 同 于 传统 RDBMS, ， 更 像 滚 
动 截 断 的 日 志文 件 。RRDTool 非常 适 于 监控 ， 因 为 它 能 捕获 和 图 形 化 各 种 性 能 和 利用 率 指 标 。 

下 面 用 一 个 简单 例子 展示 RRDTool, 假设 你 需要 捕 换 一 台 运 行 NoSQL 数据 库 的 机 带 的 CPU 
利用 率 ， 每 60 秒 捕 捉 一 次 。 此 外 ， 你 还 想 每 小 时 计算 一 下 平均 利用 紊 ， 计算 结果 保存 一 天 (24 
小 时 )。 用 RRDTool 保存 和 分 析 这 类 数据 非常 容易 。 
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RRDTool 数据 库 这 种 存储 方案 好 比 绕 圆 环 。 数 据 沿 圆周 写 人 ,最终 一 定 会 回 到 起 点 。 回 到 起 
点 后 ， 新 数据 会 复 盖 老 数据 。 因 此 可 以 存储 的 数据 总 量 早 就 由 数据 库存 储 总 量 决定 好 了 ,类 似 圆 
的 周 长 是 预先 定好 的 。 

要 创建 RRDTool 数 据 库 ， 最 简单 的 方式 是 用 命令 行 接口 (CLI )， 基 本 的 CPU 利用 率 的 例子 
可 以 表示 如 下 : 


rrdtool create myrrddb.rrd ^ 
--Start 1303520400 X 
--sgtep 60 ^ 
DS:cpu:GAUGE:120:0:100 X 
RRA: AVERAGE:0.5:60:24 \ 
RRA:AVERAGE:0.5:1440:31 


这 条 命令 创建 了 名 为 myrrddb.rrd 的 RRDTool 数据 库 。 创 建 数据 库 时 会 初始 化 一 些 属 性 ， 
这 些 属 性 定义 要 捕捉 的 指标 以 及 如 何 汇总 这 些 指 标 。 下 面 逐 行 解 析 ， 以 便 你 理解 所 有 参数 。 

参数 start 和 step 定义 数据 采集 的 开始 时 间 和 间隔 。 传 给 start 的 时 间 参 数 是 自 纪 元 
( RRDTool 里 是 指 1970 年 1 月 1 H ) 起 的 秒 数 。step 信 指 明 记 录 保 存 指标 的 时 间 间 隔 ， 单 位 是 
秒 。 我 们 要 每 分 钟 保存 一 次 CPU 利用 率 ， 所 以 step 值 设 为 60 Cb )。 

step 参数 后 面 一 行 定义 要 捕捉 的 指标 。DS :cpu:GAUGE:120:0:100 的 格式 如 下 : 

DS:variable name:data source type:heartbeat:min:max 

DS KETRIMA (Data Source )， 就 是 我 说 的 指标 。variable_name 标识 数据 源 。 在 
上 面 的 例子 里 ，cpu 是 保存 CPU 利用 率 的 变量 名 ，qata_source_type 定义 值 的 类 型 ， 在 本 例 
中 是 GAUGE, data source type 可 能 的 取信 如 下 : 

口 CoOUNTER。 记 录 一 段 时 间 的 变化 频率 。 这 种 情况 下 值 只 会 增加 。 

口 DERIVE。 类 似 COUNTER, (BRZ ME. 

口 ABSOLUTE。 也 记录 变化 频率 , 但 当前 值 总 和 上 个 值 有 关 , 不 同 于 上 个 值 。 用 数学 术语 讲 ， 

它 总 是 “delta”。 

口 SAUGE。 记 录 实 际 值 ， 而 非 变 化 频率 。 

RRDTool 按 定义 好 的 时 间 间 隔 记录 信 。 上 面 例子 里 , myrradb. rra 期 望 每 60 秒 能 得 到 一 个 
CPU 利用 率 。RRDTool 数据 库 期 望 数据 按 预定 义 的 时 间 间 隔 提 供 ， 如 有 果 到 时 候 没 数据 ， 就 记录 
UNDEFINED, XAM RDBMS 不 同 。 心 跳 值 (在 这 个 例子 里 是 120 秒 ) 是 数据 库 认为 没 数 据 时 记 
下 UNDEFINED 的 时 间 间 隔 。 虽 然 没 按 定义 的 间 隅 提供 数据 ， 但 只 要 在 心跳 间隔 内 ，RRDTool 怠 
能 正确 地 插入 数据 。 最 后 两 个 值 min 和 max 是 边界 条 件 ， 超出 边界 的 数据 会 记 成 UNDEF LNED, 
这 个 例子 里 ,假设 CPU 利用 率 是 百分比 ， 那 么 边界 值 就 是 0 和 100。 

最 后 两 行 描述 聚合 国 数 ， 它 们 用 于 时 间 序 列 数据 。 上 面 例子 最 后 两 行 如 下 : 


RRA;AVERAGE:0.5:60:24 X 
RRA:AVERAGE:0.5:1440:31 


与 DS 类 似 ，RRA 也 是 关键 字 ， 表 示 循 环 存档 (Round Robin Archive ) RRA 定义 的 格式 
如 下 : 


RRA:consolidation function:xff:step:rows 
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consolidation function 表示 聚合 函数 ， 取 值 可 以 是 AVERAGE. MINIMUM, MAXIMUM 
或 LAST。 上 面 有 两 个 RRA 定义 ,都 是 求 平均 。 聚 合 孔 数 输入 来 自 数据 ， 所 以 这 里 的 RRA 值 是 对 
每 分 钟 CPU 利用 率 聚 合 的 结果 。step 定义 要 聚合 多 少数 据 ，zrovws 定义 要 保存 多 少 聚 合 结 
上 面 例子 里 ，step 值 为 60， 即 每 60 条 记录 计算 一 个 平均 值 。CPU 利用 率 是 一 分 钟 一 个 ， 所 以 
平均 值 是 每 小 时 一 个 。 归 档 行 数 是 24。 因 此 第 一 个 RRA 记录 每 小 时 的 平均 CPU FRK, 平均 值 
保存 一 天 。 

第 二 个 RRA 定义 日 平均 CPU HHR, 保存 31 天 (1 个 月 ) 的 数据 。 

RRDTool 能 将 它 记 录 下 的 时 间 序 列 数据 用 图 形 方式 展示 。 可 以 用 命令 行 脚本 或 者 某 种 流行 的 
脚本 语言 来 操作 数据 库 。 更 多 有 关 RRDTool 的 功能 及 配置 的 内 容 请 参阅 : www.mrtg.org/rrdtool/; 

RRDTool 适 于 监测 NoSQL 集群 节点 的 健康 状况 。Hypertable 的 监控 界面 就 利用 了 RRDTool。 
更 多 有 关 Hypertable 监控 界面 的 内 容 请 参阅 : http://code.google.com/p/hypertable/wiki/Hypertable 
Manual#AppendixA.Monitoring UI, 




















17.2 Nagios 


Nagios 是 开源 的 答 主 与 服务 监控 软件 , 它 利用 插件 染 构 提供 了 极其 灵活 和 可 扩展 的 监控 基础 
设施 。Nagios 核心 是 监控 进程 , 它 能 监控 任意 类 型 的 答 主 或 服务 。 核 心 进程 完全 意识 不 到 它 监 控 
的 是 什么 , 或 者 捕捉 的 指标 有 什么 含义 。 插件 框架 建立 在 核心 进程 上 。 插件 可 以 是 编译 好 的 可 执 
行文 件 或 脚本 ( Perl 脚本 或 命令 行 脚本 )。 插 件 包含 连接 服务 、 监 控 实 体 以 及 测量 该 实体 中 某 个 
特性 的 核心 还 辑 。 

插件 监测 实体 并 返回 结果 给 Nagios, Nagios 处 理 结果 并 执行 动作 ， 比 如 执行 事件 处 理 句 顶 ， 
或 者 发 送 提醒 。 提 醒 和 壳 告 机 制 很 午 要 ， 它 们 能 方便 及 时 沟通 。 

图 17-1 描述 了 Nagios 的 架构 























Nagios 插件 Nagios 进程 


宿主 及 服务 


(监控 对 象 ) 
Alix Perl 


g|8 








Nagios 可 以 有 效 监 控 NoSQL 数据 库 和 Hadoop RE, Hadoop 和 MongoDB KOIR PHE 2 Hi 


图 灵 社 区 会 员 DanyLee HF 尊重 版 权 


266 第 17 章 ”工具 和 实用 程序 


现 了 一 些 。 由 于 Membase 37€ Memcached， 所 以 Nagios 也 可 以 监控 Membase， 此 外 还 可 以 添加 
其 他 数据 库 搬 件 。 更 多 有 关 编 写 搬 件 的 内 容 请 参阅 : http:/nagios.sourceforge.net/docs/nagioscore/ 
3/en/pluginapi.html o 

Nagios 有 一 个 GPL 许可 的 HDFS 插件 ,地 址 是 :www.matejunkie.com/hadoop-dfs-check-plugin- 
for-nagios/。 监 控 MongoDB 的 Nagios 插件 的 地 址 是 : https://github.com/mzupan/nagios-plugin- 
mongodb, 

Nagios 有 很 多 健壮 的 插件 , 它们 可 以 用 来 监控 CPU 负载 、 磁 盘 健 康 状 况 、 内 存 使 用 率 和 ping 
通 率 。 它 们 可 以 监控 大 多 数 协议 ， 包 括 HTTP. POP3, IMAP, DHCP 和 SSH， 也 能 监控 Linux, 
Windows 和 Mac OS X 等 大 多 数 操 作 系统 上 服务 的 健康 状况 。 更 多 有 关 Nagios 的 内 容 请 访问 : 


www.nagios.org/o 











17.3 Scribe 


Scribe 是 开源 的 、 实 时 的 、 分 布 式 日 志 聚 合 咒 。 它 由 Facebook 创建 ， 随 后 贡献 给 开源 社区 。 
Scribe 非常 健壮 ， 是 有 容错 能 力 的 系统 。 下 载 地 址 是 : https://github.com/facebook/scribe, Scribe 
是 分 布 式 系统 ， 集 群 每 个 节点 都 运行 本 地 Scribe 服务 化 ， 其 中 有 一 个 运行 Scribe 中 心 (E) 服务 
fro HIELE] Scripe 本 地 服务 硕 ， 再 发 送 给 中 心服 务 项 。 如 末 中 心服 务 硕 宕 机 了 ， 日 志 束 写 
人 本 地 文件 ， 中心 服务器 重新 启动 后 青 发 送 给 它 。 为 避 倪 中 心服 务 右 刚 启 动 时 负载 过 大 ,同步 会 
等 到 中 心服 务 硕 局 动 后 ， 延 开 一 段 时 间 再 发 起 。 

Scribe 日 志 消 恩 和 格式 虱 可 配置 。 它 是 用 非 阻 塞 C++ 服 务 厅 实现 的 Thrift 服务 。 

Scribe 写 日 志 的 可 配置 性 很 好 。 消 奶 映 射 到 类 别 上 ， 类 别 映射 到 特定 的 存储 类 型 上 ， 存 储 本 
号 可 以 有 层次 结构 。 不 同 存储 类 型 如 下 。 

口 文件 : 本 地 文件 或 NFS。 

口 网 络 : 发 送 给 为 一 个 Scribe IRI ds s 

O 缓冲 (Buffer): 包含 主 副 两 个 存储 。 消 息 发 送 给 主 存 储 ， 如 采 主 存储 存 机 ， 消 息 束 发 送 

给 副 存 储 。 主 存储 重新 恢复 后 ， 消 息 会 再 发 送 给 主 存储 。 

O fi& ( Bucket): 包含 大 量 的 存储 ， 并 形成 层次 结构 。 根 据 哈 硕 决定 消息 发 送 给 哪个 存储 。 

O Null: 抛 痉 所 有 消息 。 

O Thriftfile: 将 消息 写 和 人 一 个 Thrift TFileTransport 文件 。 

O Multi: £s, EH EIS RT E. 

Scribe 的 Thrift 接口 如 下 : 


enum ResultCode 
( 

OK, 

TRY_LATER 
I 



































struct LogEntry 
i 
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1: string category, 
2: string message 


} 


service scribe extends fb303.FacebookService 
( 
ResultCode Log(1: list«LogEntrv» messages); 


) 
下 面 是 一 个 简单 的 PHP 客户 端 消 息 的 例子 : 


$messages = array(); 
Sentry - new LogEntry; 


Sentry-»category - "test bucket"; 
Sentry-»message = "a message"; 
$messages []= Sentry; 


$result = S$conn-»Log(S$messages); 
scribe client.php 


日 志 解 析 与 管理 是 大 数据 及 其 处 理 中 非常 重要 的 一 项 工作 。Flume 是 继 Scribe 之 后 的 又 一 解 





17.4 Flume 


Flume 是 分 布 式 服 务 ,用 于 高 效 地 收集 、 聚 合 和 挪动 大 量 日 志 数 据 。 它 基于 数据 流 处 理 。Flume 
非常 健壮 ， 有 一 定 的 容错 能 力 ， 支 持 灵 活 的 配置 ， 文 档 地 址 : http://archive.cloudera.com/ 
cdh/3/flume/, 

Flume 由 多 个 逻辑 市 点 组 成 ， 日 志 数 据 流 过 这 些 节 点 。 市 点 可 以 分 成 三 个 独立 的 层次 : 

口 代理 层 : RHED KETA ELE H BRU. 

口 收集 层 : 收集 层 聚 合 日 志 数 据 ， 并 转 与 存储 层 。 

O 存储 层 : 可 以 是 HDFS。 

代理 层 可 以 监听 来 目 多 个 层 或 数据 源 的 日 志 。Flume 代理 可 以 监听 syslog 的 日 志文 件 、Web 
服务 硕 日 志 或 者 Hadoop JobTracker。 

Flume 可 以 看 作 是 由 逻辑 节点 组 成 的 网 络 ， 日 志 数 据 从 源流 回 最 终 的 存储 ， 每 个 逻辑 和 点 都 
定义 了 源 和 出 口 。 逻 辑 节 点 也 可 以 有 修饰 硕 (decorator )， 但 不 是 必须 的 。 逻 辑 节 点 以 构 文 持 对 
数据 流 进行 压缩 或 批量 处 理 。 每 个 物理 节点 是 一 个 单独 的 Java 进程 ， 多 个 逻辑 节点 可 以 映射 到 
一 个 物理 节点 上 。 






































17.5 Chukwa 


Chukwa 是 Hadoop FMH, 致力 于 大 规模 收集 与 分 析 。Chukwa 利用 HDFS 和 MapReduce 提 
供 可 扩展 的 基础 设施 来 聚合 和 分 析 日 志文 件 。 

与 Scribe 和 Flume 不 同 ，Chukws 还 监控 和 分 析 工 具 ， 而 不 只 是 收集 和 聚合 日 志 。 就 收集 和 
聚合 而 言 ， 它 很 像 Flume。 
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Chukwa 的 架构 如 图 17-2 所 示 。 









RDBMS 
(或 HBase) 
MapReduce 任 务 


归档 存储 











数据 源 (syslog, 
应 用 1， 应 用 2， 
Web 服 务 器 ) 











图 17-2 


Chukwa 对 Hadoop 的 依赖 有 好 处 也 有 坏处 。 从 目前 的 结构 来 说 , 它 主要 还 是 批 处 理工 具 , 不 
能 用 于 实时 分 析 。 
更 多 有 关 Chukwa 的 内 容 可 以 参阅 下 面 的 演讲 和 人 研究 论文 : 


Q *Chukwa: a scalable log collector": www.usenix.org/event/lisalO/tech/slides/rabkin.pdf 





Q *Chukwa: A large-scale monitoringsystem" : www.cca08.org/papers/Paper-13-Ariel-Rabkin.pdf 


17.6 Pig 


Pig 提供 高 级 数据 流 定义 语言 和 环境 来 用 MapReduce 进行 大 规模 数据 分 析 。Pig 包括 一 种 语 
言 Pig Latin， 它 的 语法 人 简单 直观， 便于 编写 并 行程 序 。Pig 通过 MapReduce 任务 来 有 效 地 执行 3 
行 任务 。 

MapReduce 框架 要 求 开发 者 从 map 和 reduce 因数 的 角度 来 思考 ， 把 每 个 操作 都 分 解 成 非常 
HERRER, Hl map, reduce 两 步 。map 生成 键 / 值 对 ，reduce 操作 或 聚合 这 些 键 / 值 对 。 这 种 实 
践 要 求 所 有 连接 、 分 组 、 求 平均 和 计数 操作 都 要 用 MapReduce 等 价 方式 来 定义 ， 这 样 就 限制 了 
开发 者 的 生产 力 。 就 Hadoop 而 言 ， 还 意味 着 要 编写 许多 Java 代码 。Pig 提供 了 高 阶 抽象 和 一 组 
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PAZ. AT Pig， 你 不 再 需要 从 头 开始 编 写 连 接 、 分 组 、 求 平均 和 计数 的 MapReduce 任务 。 此 外 
代码 行 通常 也 从 数 百 行 Java 代码 缩减 成 了 数 十 行 Pig Latin 脚本 。 

Pig 不 仪 能 减少 代码 行 数 ， 紧 竣 多 学 的 语法 也 使 非 程序 员 执 行 MapReduce 任务 成 为 可 能 。 随 
者 Pig 不 断 改 进 ， 数 据 科学 家 和 分 析 师 们 无 需 直 接 使 用 编程 语言 就 能 执行 并 行 任务 了 s 

Pig 提供 有 语言 和 执行 引擎 。 执 行 引 擎 不 仅 会 翻译 和 发 送 任务 给 MapReduce 基础 设施 ， 同 
时 还 管理 Hadoop 配置 。 大 多 数 时 候 这 些 配 置 都 是 优化 的 ,说 明 Pig 同时 还 接管 了 优化 配置 的 贡 
任 。 这 样 既 获得 了 额外 的 优化 ， 也 无 需 更 多 付出 。 优 化 包括 选择 正确 的 reducer 数量 或 者 合适 的 
区 











17.6.1 使 用 Pig 


Pig 引擎 可 以 通过 下 列 四 种 机 制 来 访问 。 

口 通过 脚本 。 

OQ 使 用 命令 行 接口 grunt, 

Q 通过 Java 接口 Pigserver 2$, 

口 通过 Eclipse 插件 。 

命令 可 以 写成 Pig Latin 脚本 ， 脚 本 再 提交 给 Pig 引 警 。 另 外 也 可 以 启动 Pig 命令 行 grunt， 然 
后 用 命令 行 访问 Pig 引 擎 。 

虽然 用 Pig 使 得 你 不 用 再 写 Java 程序 来 执行 Hadoop MapReduce 任务 ， 但 是 很 可 能 你 还 需要 
用 Java 程序 访问 Pig。 这 种 情况 下 就 可 以 用 Pig 的 Java 类 库 。 类 型 PigServer 支持 Java 程序 通 
过 JDBC 接口 访问 Pig 引擎 。 在 Java 程序 中 调用 Pig 时 ， 用 Java 类 库 而 不 是 外 部 脚本 /程序 能 减 
少 复杂 性 。 

最 后 的 重要 一 点 ,Pig 团队 开发 了 一 个 叫做 PigPen 的 Eclipse 插件 , 它 提供 了 强大 的 IDE. 这 
个 Eclipse 插件 支持 图 形 化 地 定义 数据 流 ， 还 有 脚本 开发 环境 。 











17.6.2 Pig Latin 基 础 


Pig Latin 文 持 下 列 数据 类 型 : 
L1 Int 

Ll Long 

DQ Double 

L] Chararray 

L1 Bytearray 

Q Map ( 键 / 值 对 ) 

口 Tuple( 有 序列 表 ) 

口 Bag ( 无 序 集 ) 


学 习 Pig Latin 以 及 如 何 执行 Pig 脚本 的 最 好 方法 就 是 看 些 范 例 。Pig 目 市 的 范例 〈 包 括 有 完整 
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Pig 教程 的 tutorial 目录 如 下 : 

O build.xml: ANT 构 建 脚本 。 

O data: Excite 搜索 引擎 日 志文 件 的 样 例 数据 。 

Q scripts: Pig 脚本 。 

Q src: Java MARIE, 

介绍 所 有 Pig 命令 语法 超出 了 本 书 的 范围 ， 不 过 我 会 介绍 一 部 分 范例 脚本 ， 好 证 你 对 Pig 有 
些 印象 。 

tutorial/scripts 目录 下 有 四 个 脚本 ， 分 别 为 : 

Q scripti-hadoop.pig 

Q scriptl-local.pig 

ùQ script2-hadoop.pig 

C script2-local.pig 

*-local 脚本 在 本 地 执行 任务 ，* -haqoop 脚本 在 Hadoop 集群 上 执行 任务 。 这 个 例子 是 处 
理 来 和 目 搜索 引 敬 Excite 日 志文 件 的 样 全 数据 。 脚 本 script1-local.pig 用 来 找 出 一 天 中 任意 
时 刻 的 高 频 搜 索 词 。 脚 本 前 面 首 先 注册 变量 和 加 载 数据 ， 数 据 经 过 处 理 计算 出 n-gram 频 度 。 示 
例 脚本 的 户 段 如 下 : 


-- jHH| NGramGenerator UDF 得 到 查询 语句 的 n-gram 

ngramedl = FOREACH houred GENERATE user, hour, 
tlatten(í 
org.apache.pig.tutorial.NGramGenerator (query)) 
as ngram; 








-- JH DISTINCT 获取 所 有 记录 中 不 同 n-gram 
ngramed2 = DISTINCT ngramedl; 


-- 用 GROUP dx n-gram 和 小 时 分 组 
hour frequencyl = GROUP ngramed2 BY (ngram, hour); 


-- 用 COUNT 获取 每 个 n-gram 出 现 的 次 数 
hour frequency2 = FOREACH hour frequencyl GENERATE flatten($0), COUNT($1) as count; 


片段 展示 出 了 部 分 Pig 脚 本 行 。 第 一 行 FoREACH 函数 遍历 数据 生成 mgram。 第 二 行 DISTINCT 
找 出 唯一 的 n-gram。 第 三 行 GROUP 函数 按 小 时 归 组 数据 。 最 后 一 行 届 有 历 分 组 数据 计算 n-gram 出 
现 的 频 度 。 这 段 脚本 中 FOREACH 玉 数 用 来 过 历 效 据 集 。 很 明显 FOREACH, DISTINCT, GROUP 
和 COUNT 这 样 的 高 级 函数 简化 了 数据 处 理 ， 不 需要 再 用 MapReduce KXU 

Pig 和 和 直接 写 MapReduce 相 比 有 一 定 开 销 ， 大 约 是 1.2 倍 ， 相 对 于 它 提供 的 舒适 便利 来 说 还 
是 可 以 接受 的 。PigMix (http:;//wiki.apache.org/pig/PigMix ) 是 一 个 性 能 基准 工具 ， 用 来 比较 通过 
Pig 和 直接 用 MapReduce 执行 任务 的 性 能 差别 。 

在 Yahoo!，Pig 和 Hadoop streaming 是 访问 Hadoop 集群 的 首选 方式 。Yahool 的 Hadoop 集群 
是 世界 上 最 大 的 Hadoop 集群 之 一 ， 它 利用 这 个 集群 来 服务 一 些 关 键 功 能 。Pig 在 Yahoo! 的 使 用 
Di B] Pig 已 经 为 在 生产 环境 中 使 用 做 好 了 准备 。 

更 多 有 关 Pig 的 内 容 可 以 访问 : http://pig.apache.org/。 
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17.7 Nodetool 


Apache Cassandra 是 流行 的 最 终 一 致 数据 存储 。 它 的 分 布 式 特性 和 最 终 一 致 的 复制 模型 使 得 
在 运行 时 可 能 会 出 现 一 些 复杂 情况 .如果 能 有 些 工具 用 来 管理 和 监控 Cassandra 集群 就 很 方便 了 。 
nodetool 就 是 这 样 一 个 工具 ，nodetool 可 以 像 这 样 运行 : 

bin/nodetool 

不 带 参 数 运行 会 打印 出 最 常用 的 命令 We Cassandra 节点 组 成 一 个 环 ， 节 点 包含 的 数据 
映 冉 到 一 组 有 序 令 脾 上 。 所 有 键 痢 用 MDS 哈 硕 成 令 牌 。 要 获取 Cassandra 环 的 状态 ,可 以 执行 下 
面 的 命令 : 

bin/nodetool -host «host name or ip address» ring 

其 中 host name 或 ip address 可 以 是 环 上 任意 的 节 点 。 命 Hp 令 输 出 包括 了 环 上 所 有 节 点 的 
状态 。 它 会 输出 状态 、 人 负载 、 区 则 和 ACSII 人 码 图 。 

要 获取 某 个 节点 的 状态 ， 可 以 执行 下 面 的 命令 : 


bin/nodetool -host «host name or ip address» infc 


命令 输出 包含 下 列 内 容 。 

口 Token 〈 令 牌 ) 

O Load info: 磁盘 存储 的 字 节 数 

口 Generation no: 市 点 司 动 次 数 

O Uptime in seconds (在线 时 间 ， 单 位 : 秒 ) 

O Heap memory usage( 堆 的 内 存 使 用 情况 ) 

Nodetool 还 文 持 一 系列 其 他 命令 。 

L] ring: 列 出 环 的 信息 

O info: 列 出 市 点 信息 (运行 时 间 、 负 和 载 等 ) 

口 cfstats: 输出 列 族 的 统计 信息 

口 clearsnapshot: 移 除 所 有 快照 

O version: 列 出 Cassandra 版 本 

D tpstats: 输出 线程 池 使 用 情况 

O drain: 排 干 节点 〈 售 止 接收 写 请 求 ， 刷 新 所 有 列 族 ) 
口 decommission: EHTA 

O loadbalance: 使 节点 负载 平衡 

O compactionstats: 列 出 压缩 的 统计 信息 

O disablegossip: 禁用 gossip (等 价 于 标记 节点 死亡 ) 
D enablegossip: 重新 启用 gossip 

O disablethrift: 禁用 Thrift 服务 带 

O enablethrift: 重启 启用 Thrift 服务 大 

L] snapshot [snapshotname]: 创建 快照 ， 接受 可 选 的 快照 名 
O netstats [host]: 输出 给 定 主机 的 网 络 信息 ( 默认 连接 节点 ) 
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O move: 将 和 点 移动 到 新 的 令 牌 上 

O removetoken status|force|«token»: 显示 删除 令 牌 目前 的 状态 、 强 制 完成 删除 或 
删除 令 牌 

更 多 有 关 Nodetool 的 内 容 可 以 访问 : http://wiki.apache.org/cassandra/NodeTool。 


17.8 OpenTSDB 


随 着 数据 持续 增长 , 你 需要 问 基 础 设施 中 添加 更 多 的 存储 和 计算 方 点 , 很 快 集群 中 就 会 出 现 
一 大 批 主 机 、 服 务 硕 和 应 用 程序 ， 需 要 管理 。 大 部 分 主机 、 服 务 硕 和 应 用 程序 都 提供 了 钧 子 以 便 
监控 。 你 可 以 ping 这 些 实体 ， 测 量 它们 的 运行 时 间 、 人 性 能 、 使 用 情况 和 其 他 特征 。 捕 获 〈 特别 
是 非 浓 频 索 地 捕获 )、 收 集 和 分 析 这 些 指标 是 非常 复杂 的 任务 。 

OpenTSDB 是 分 布 式 可 扩展 的 时 间 序 列 数 据 存储 ,能 非常 灵活 地 管理 和 监控 大 量 主 机 、 服 务 
短 和 应 用 程序 。 它 异步 地 从 大 量 机 种 上 收集 数据 并 进行 存储 和 索引 。OpenTSDB 是 开源 工具 ,由 
StumbleUpon 团队 创建 。 它 用 HBase 存储 收集 到 的 数据 ， 文 持 实 时 绘图 与 分 析 。 

OpenTSDB 架构 如 图 17-3 所 示 。 























网 络 设备 1 





TSD TSD 
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图 17-3 
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OpenTSDB 能 存储 数 十 亿 记 录 , 所 以 不 用 担心 是 否 需 要 删除 指标 和 日 志 数 据 。 在 大 数据 集 上 
做 分 析 能 够 揭示 出 一 些 相 关 的 指标 ,帮助 深入 洞穴 运行 系统 。OpenTSDB 是 分 布 式 的 ， 没 有 单 点 
故障 问题 。 

EZAK OpenTSDB 的 内 容 可 以 访问 : http://opentsdb.net/index.html。 





17.9 SOLANDRA 


Lucene 是 流行 的 开源 搜索 引擎 ，Java 编写 ， 过 去 几 年 里 在 许多 产品 和 组 织 中 都 得 到 了 应 用 。 
Solr 是 对 Lucene KEWER. Solr 在 Lucene 上 提供 了 HTTP Iki ár, JSON, XML/HTTP 文 持 等 
一 系列 增值 功能 。 而 Solr 底层 所 有 搜索 功能 者 由 Lucene 提供 ,更 多 有 关 Lucene 的 内 容 可 以 访问 : 
http://lucene.apache.org/java/docs/index.html, AX Solr 的 内 容 可 以 访问 : http://lucene.apache.org/ 
solr/。 

Solandra 是 Jake Luciani 韭 常 有 趣 的 实验 项 目 。Solandra M HJER HE A Lucandra， 这 个 项 
HÆR Lucene 和 Cassandra， 并 用 Cassandra 存储 Lucene 的 索引 与 文档 数据 。 后 来 项 目 转 为 支 
持 Solr。 

Lucene 是 简单 优雅 的 搜索 类 库 , 非常 容易 集成 到 应 用 中 。 核 心 部 分 负责 管理 索引 , 文档 被 解 
析 和 索引 后 放 到 存储 中 ， 存 储 可 以 是 文件 系统 、 内 存 或 任何 其 他 存储 系统 。 查 询 会 被 Lucene fff 
析 并 翻译 成 索引 查找 。 索 引 放 取 需 谈 取 索 引 并 构造 啊 应 ， 最 后 返回 给 调用 方 。 

Solandara 选择 Cassandra 作为 存储 系统 ， 实 现 了 Lucene 的 IndexWriter 和 IndexReader 接口 ， 














支持 将 家 3 引 和 文件 写 入 Cassandras B| 17-4 和 图 17-5 描述 了 Solr 和 Solandra 中 的 索引 | 读 写 架构 。 


Solr/Lucene 






IndexSearcher IndexReader IndexWriter 





文件 系统 


图 17-4 


Solandra 定义 了 两 个 列 族 来 存储 索引 和 文档 。 搜 索 词 (search term) 列 族 用 来 存储 索引 ， 键 
的 形式 是 indexName/field/term， 对 应 的 值 是 { documentId , positionVector }。 文 
档 存 在 另 一 个 列 族 中 ， 其 键 形 如 indexName/documentId,， 值 则 是 { fieldName , value }。 
Solandra 在 同一 个 市 点 的 同一 JVM 中 运行 Solr 和 Cassandra, Solandara 索引 读 写 性 能 比 普通 
的 Solr HÆ, Mit Solandra 扩展 更 容易 。 如 果 你 已 经 在 用 Cassandra, 或 者 在 扩展 Solr 7r R8 51] 
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了 问题 ， 可 以 试 试 Solandra。Solandra 项 目地 址 : https://github.com/tjake/Solandra。 


Solandra 






IndexSearcher IndexReader IndexWriter 


Cassandra 


和 Solandra 类 似 的 还 有 用 HBase 替代 Cassandra 作 底 层 存 储 ，lucehbase 就 是 这 样 一 个 项 目 ， 
地 址 : https://github.com/thkoch2001/lIucehbase. 

如 果 你 想 扩 展 Lucene, 但 不 是 Cassandra 用 户 。 我 不 建议 用 Solandra， 而 建议 用 Katta。Katta 
( http://katta.sourceforge.net/ ) 将 Lucene 索引 存储 到 HDFS 中 , 从 而 提供 可 扩展 的 分 布 式 搜索 软件 ， 
它 还 让 你 可 以 有 机 会 利用 Hadoop 基础 设施 。 











17.10 Hummingbird 和 C5T 


Hummingbird 是 非常 活路 的、 利用 MongoDB 开发 的 实时 Web 流量 可 视 化 软件 , 它 目 前 还 处 
于 早期 阶段 ， 但 是 非常 有 趣 , 令 人 印象 非常 深刻 ， 因 而 值得 了 解 和 关注 。 

Hummingbird 用 node.js 开 发 ,通过 web socket 将 数据 推送 给 浏览 硕 。 回 退 方 案 是 用 Flash socket 
将 数据 发 送 给 浏览 器 。 这 个 项 目 是 开源 的 ,MIT 授权 , 地 址 : https://github.com/mnutt/hummingbird , 











A Node.js Æ Linux fe Unix 平 台 上 使 用 V8 JavaScript 引擎 的 事件 驱动 IO 4E 
AR, 主要 用 于 编写 可 伸缩 的 网 络 程序 ,例如 Web 服务 器 。 它 的 设计 受到 了 Ruby 
Event Machine 和 Python Twisted 的 影响 ， 并 和 它们 类 似 。 更 多 有 关 node.js 的 
内 容 请 参阅 : http://nodejs.org/。 








Hummingbird 的 实时 Web 流量 数据 存储 在 MongoDB 中 ， 后 者 提供 了 快速 该 写 能 力 。 基 于 
node.js 的 跟踪 服务 兹 会 记录 用 户 在 网 站 上 的 活动 ， 并 将 数据 存储 到 MongoDB 服务 侣 上。 已 经 实 
现 的 指标 包括 到 访 次 数 、 人 位置、 销售 和 总 浏览 数 。 下 面 是 到 访 次 数 的 例子 : 








var HitsMetric = { 
name: 'Individual Hits', 
initialData: [], 
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interval: 200, 
incrementCallback: function(í(view) ( 
var value = { 
url: view.env.u, 
timestamp: view.env.timestamp, 
ip: view.env.ip 
i 
this.data.pushí(value); 
h 
} 


for (var i in HitsMetric) 
exports[i] = HitsMetric[i]l:; 


更 多 有 关 Hummingbird 的 内 容 可 以 访问 : http:/projects.nuttnet.net/hummingbird/; 

C5t 是 男 一 个 用 MongoDB 构建 的 有 趣 软 件 。 它 是 内 容 管理 软件 , 用 TurboGears ( Python Web 
框架 ) 和 MongoDB 写成 。 源 代码 地 址 : https://bitbucket.org/percious/c5t/wiki/Home. 

只 要 输入 你 想 要 的 URL 就 能 创建 页 面 ， 页面 可 以 是 公共 的 或 者 私有 的 ， 此 外 它 还 提供 了 内 
置 的 认证 授权 和 全 文 搜索 功能 。 








17.11 GeoCouch 


GeoCouch 是 CouchDB 的 扩展 ， 为 Apache CouchDB 提供 地 理 信 息 索 引 。 项 目地 址 : 
https://github.com/couchbase/geocouch, ， 同 时 它 还 被 收入 Couchbase 公司 ( 赞助 了 该 项 目的 开发 ) 
的 Couchbase 中 。GeoCouch 第 一 版 用 Python 和 SpatiaLite 开发 ， 通 过 stdin 和 stdout 与 CouchDB 
交互 。 目 前 版 本 用 Erlang 开发 ， 和 CouchDB 的 集成 也 更 好 。 

地 理 信息 索引 引入 了 有 关 数 据 位 置 的 视角 。 EAE GPS 、 位 置 感应 硕 、 地 岁 和 本 地 搜索 的 出 现 ， 
地 理 信息 索引 正 逐 渐 成 为 许多 应 用 中 的 重要 部 分 。 

GeoCouch 文 持 许多 种 地 理 信息 索引 类 型 ， 如 下 所 示 : 

L] Point 

DQ Polygon 

Q LineString 

Q MultiPoint 

Q MultiPolygon 

Q MultiLineString 

Q GeometryCollection 

GeoCouch 用 R 树 存 储 地 理 信 息 索 引 。R 树 (http://en.wikipedia.org/wiki/R-tree) 广泛 用 于 多 
种 地 理 信 息 产 品 ， 比 如 PostGIS, SptiaLite 和 Oracle Spatial; R 树 使 用 方块 作为 地 理 位 置 的 近似 
值 ， 对 展示 大 部 分 几何 网 形 来 说 足够 了 。 

PDX API ( www.pdxapi.com/ ) 是 一 个 很 好 的 GeoCouch 和 学习 范例 ， 它 利用 GeoCouch 为 波兰 市 的 
开放 地 理 数 据 创 建 了 一 个 REST 服 务 。 波 兰 将 其 地 理 数据 以 shapefile 形 式 公布 .这 些 文件 通过 PostGIS 
转换 成 GeoJSON。CouchDB 支持 JSON， 能 很 容易 导入 GeoJSON 并 轻松 提供 强大 的 RESTAPI。 

















灵 社 区 会 员 DanyLee 专 享 尊重 版 权 


276 第 17 章 工具 和 实用 程序 


17.12 Alchemy Database 


Alchemy 数据 库 ( http://code.google.com/p/alchemydatabase/ ) 是 具有 双重 性 质 的 数据 库 。 它 
既 可 以 是 RDBMS， 又 可 以 是 NoSQL。 它 构建 在 Redis 和 Lua E, Nik Lua 解释 项 。 由 于 使 用 
Redis， 数 据 库 速 度 非常 快 ， 而 且 还 尽量 在 内 存 中 完成 各 种 操作 。 不 过 这 也 意味 着 ， 如 末 内 存 数 
据 和 磁盘 上 整个 数据 集 差别 很 大 时 ， 它 会 受到 Redis 的 限制 。 

Alchemy 的 性 能 惊人 人， 原因 如 下 . 

a 使 用 事件 驱动 的 网 络 服 务 右 ， 尺 可 能 利用 内 存 。 

口 高 效 数据 结构 和 压缩 允许 在 RAM 中 存放 很 多 数据 。 

O KFF OLTP 最 相关 的 SQL 语句 ， 保 持 系统 轻 量 级 ， 同 时 又 很 有 用 。 不 文 持 复杂 SQL, 

Alchemy 能 支持 的 SQL 命令 列表 地 址 : http://code.google.com/p/alchemydatabase/wiki/ 
CommandReferenceZSupported SQL, 























17.13 Webdis 


Webdis ( http://webd.is) 是 Redis 的 高 速 HTTP 接口 。 它 就 是 一 个 简单 的 Web 服务 器 ， 请 求 
下 发 给 Redis， 响 应 返回 给 客户 端 。Webdis 默认 支持 JSON， 此 外 还 支持 其 他 类 型 如 下 。 

口 文本 ， text/plain。 

Q HTML, XML, PNG, JPEG, PDF, 分 别 使 用 各 自 的 扩展 类 型 。 

Q BSON, application/bson; 

O Redis 协议 格式 。 

Webdis 行为 类 似 普 通 的 Web 服务 硕 ， 只 不 过 略 有 修改 以 文 择 Redis 命令 。 普 通 请 求 返回 200 
ok 代码 。 如 果 受 访问 控制 影响 ， 不 允许 回应 某 个 请 求 ， 客 户 问 会 收 到 403 forbidden 的 HTTP jj 
应 。 不 文 持 GET, POST 和 OPTIONS, 使 用 它们 会 返回 405 Method Not Allowed。Webdis xF} 
HTTP PUT， 可 以 通过 命令 来 设置 值 ， 例 如 像 下 面 这 样 : 


curl --upload-file my-data.bin http://127.0.0.1:7379/SET/akey 


17.14 小结 


在 我 写本 昔 的 总 结 时 , 期 望 你 能 从 学 习 这 些 重要 技术 的 过 程 中 得 到 丰富 有 趣 的 体验 。 本 章 展 
示 NoSQL 相关 工具 和 实用 程序 ， 及 相关 案例 。 

f& RRDTool 和 Nagios 这 样 的 工具 是 通用 的 , 都 是 非常 有 价值 的 监控 及 管理 软件 。 像 nodetool 
这 样 的 工具 在 管理 和 监控 Cassandra 时 ， 能 市 来 额外 的 好 处 。 

Scribe, Flume 和 Chukwa 在 分 布 式 日 志 处 理 和 聚合 方面 提供 了 非常 强大 的 能 力 。 它们 提供 了 
健壮 的 功能 来 管理 分 布 式 环境 中 生成 的 大 量 日 志文 件 。OpenTSDB 为 主机 、 服 务 和 应 用 程序 提供 
了 实时 监控 的 基础 设施 。 
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17.14 小结 2T] 


Pig 是 非常 有 价值 的 工具 ， 可 用 于 在 Hadoop 集群 上 编写 聪明 的 MapReduce 任务 ， 本 草 帮 你 
在 这 方面 开 了 个 头 。 像 Solandra, Hummingbird, c5t, GeoCouch, Alchemy 数据 库 和 Webdis 这 
样 有 趣 的 应 用 能 让 我 们 看 到 ， 当 NoSQL 产品 的 灵活 强大 和 你 的 点 子 碰 撞 在 一 起 时 ， 会 激发 出 怎 
样 的 火花 。 本 章 所 罗列 的 各 种 工具 、 实 用 程序 和 用 例 不 过 是 大 千 世 界 的 小 小 一 角 。 庶 过 本 书 的 学 
习 ， 和 希望 能 激发 起 你 的 兴趣 ， 去 了 解 和 学 习 更 有 趣 ， 更 适合 你 的 NoSQL 产品 。 




















图 灵 社 区 会 员 DanyLee 专 享 尊重 版 权 


um 人 


KRALE 


本 章 内 容 

OQ 安装 并 设置 几 个 流行 的 NoSQL 产品 
口 了解 不 同 平台 上 基本 安装 的 区 别 

OQ 源码 编译 适用 的 产品 

口 配置 NoSQL 产品 














记 件 的 安装 说 明和 常 因 操作 系统 不 同 而 变化 ,。 这 里 包含 的 大 部 分 说 明 对 Linux , Unix 和 Mac 
OSX 都 有 效 ， 有 些 地 方 也 会 介绍 在 Windows 上 的 安装 说 明 。 
我 们 经 常 要 在 /opt 目录 下 安装 组 件 。root 以 外 用 户 默 认 无 权限 写 此 目录 。 如 果 文 中 指定 说 
要 在 /opt 目录 下 解压 文件 或 执行 其 他 操作 ， 用 户 又 没有 写 权 限 ， 可 以 运行 加 上 suao (8) 下 的 命 
令 或 者 使 用 chmod (1) 把 /opt 目录 改 成 可 写 的 。 


A.1 Hadoop 安 疙 与 配置 


本 节 说 明 如 何 安 装配 置 Hadoop Common, HDFS 以 及 Hadoop MapReduce, 
以 下 软件 是 必需 的 。 
口 Java 1.6.x, Hadoop 是 在 Sun (现在 是 Oracle) JDK 下 进行 的 测试 。 
O SSH 和 sshd, SSH —4E XX, sshd 也 得 跑 起 来 。Hadoop 脚本 通过 sshd 连接 远程 Hadoop 
进程 。 
Hadoop 可 安装 并 运行 为 音节 点 或 多 访 点 集群 。 单 方 点 模式 也 可 配置 成 伪 分 布 式 。 本 市 主要 
关注 单方 点 和 伪 分 布 式 模式 ， 不 包括 集群 ， 不 过 会 提供 这 个 主题 的 文档 链接 。 

















A.1.1 安装 


(1) 下 载 Hadoop 稳定 版 ， 地 址 : http://hadoop.apache.org/common/releases.html。 编 写本 书 时 
Hadoop 最 新 版 本 是 0.21.0， 我 们 选 0.20.2。 用 这 个 版 本 能 避免 0.21.0 造成 的 不 一 至 问题， 特别 是 
和 HBase 一 起 用 时 。 

(2) 解压 文件 。 

(3) 解压 完 找 个 地 方 放 好 ， 我 选择 放 到 /opt HRE, 
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(4) 〈 可 选 ) 在 执行 解压 的 目录 里 创建 符号 链接 hadoop 指 加 上面 步 又 的 目录 。 符 号 链接 可 
以 像 下 面 这 样 创 建 : 1n -s hadoop-0.20.2 nadoop， 此 命令 假设 你 正 处 在 提取 文档 的 目录 下 。 

t Hadoop 后 ， 执 行 下 列 基本 配置 步骤 。 

(1) 修改 con£/hadoop-env.sh, 设置 JAVA HOME 为 相应 的 JDK- Ubuntu--OpenJDK 的 话 ， 
JAVA HOME 应 该 是 /usr/1lib/jvm/java-1.6.0-openjdk。Mac OS X E JAVA. HOME 多 半 是 
/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Homes 

(2) 执行 bin/hadoop, JURE P EAHA h OL] 2778 1 [RE : 

Usage: hadoop [--config confdir] COMMAND 


where COMMAND is one of: 
namenode -format format the DFS filesystem 








secondarynamenoderun the DFS secondary namenode 
namenode run the DFS namenode 

datanode run a DFS datanode 

dfsadmin run a DFS admin client 

mradmin run a Map-Reduce admin client 

fsck run a DFS filesystem checking utility 
fs run a generic filesystem user client 
balancer run a cluster balancing utility 
jobtracker run the MapReduce job Tracker node 
pipes run a Pipes job 

tasktracker run a MapReduce task Tracker node 
job manipulate MapReduce jobs 

queue get information regarding JobQueues 
version print the version 

jar «jar» run a jar file 


distcp «srcurl» «desturl» copy file or directories recursively 
archive -archiveName NAME «src»* «dest» create a hadoop archive 


daemonlog get/set the log level for each daemon 
Or 
CLASSNAME run the class named CLASSNAME 


Most commands print help when invoked w/o parameters. 


如 果 没 看 到 Hadoop 命令 行 选项 ， 就 要 检查 JAVA HoME 是 否 指 到 了 正确 的 JDK 上 。 





A.1.2 ” 单 记 点 配置 


Hadoop 默认 以 单 节 点 模式 运行 ,要 试 一 下 Hadoop 是 否 能 正常 工作 ,可 以 像 下 面 这 样 实验 HDFS: 


Q S mkdir input 
Q $ cp bin/*.sh input 








L] $ bin/hadoop jar hadoop-examples-*.jar grep input output 'start[a-z.]+' 
,> A á x ^. D > JA Y NM A] 

该 命令 应 该 会 触发 MapReduce 任务 ， 任 务 生成 输出 的 开始 部 分 是 这 样 的 : 

«date time»INFO jvm.JvmMetrics: Initializing JVM Metrics with 
processName-zJobTracker, sessionId- 

«date time»INFO mapred.FileInputFormat: Total input paths to process : 12 

«date time» INFO mapred.JobClient: Running job: job local, 0001 

«date time» INFO mapred.FileInputFormat: Total input paths to process : 12 

«date time» INFO mapred.MapTask: numReduceTasks: 1 
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«date time- 
«date time- 
«date time- 


NFO mapred.MapTask: io.sort.mb - 100 

NFO mapred.MapTask: data buffer = 79691776/99614720 

NFO mapred.MapTask: record buffer - 262144/327680 

«date time» INFO mapred.MapTask: Starting flush of map output 

«date time» INFO mapred.TaskRunner: Task:attempt local 0001 m 000000 0 is done. 
And is in the process of commiting 

«date time» INFO mapred.LocalJobRunner: file:/opt/hadoop-0.20.2/input/hadoop- 
config.sh:0-41966 














可 以 用 命令 **cat output/*** 确 认输 出 的 内 容 。 
输出 可 能 会 因 Hadoop 版 本 有 所 变化 ， 大 概 是 这 样 的 : 
starting 


2 
1 starts 
1 startup 


A.1.3 伪 分 布 式 模式 配置 


要 把 Hadoop 配置 成 伪 分 布 式 ， 一 个 重要 前 提 是 不 用 口令 陇 能 SSH 到 localhost, 

试 试 : 

ssh localhost 

系统 会 提示 你 确认 本 地 服务 器 的 可 靠 性 ， 输 入 yes 来 响应 该 提示 。 

如 果 不 用 输入 密码 就 能 登录 成 功 , 那 就 可 以 继续 了 。 和 否则 的 话 ,应 该 先 执行 下 面 的 命令 设置 
密 钥 认证 〈 无 需 密 人 码 ): 


$ ssh-keygen -t rsa -P '' -f -/.ssh/id rsa 
$ cat -/.ssh/id rsa.pub >> -/.ssh/authorized keys 


Hadoop 可 以 在 单 世 点 上 以 伪 分 布 式 模式 运行 ， 每 个 Hadoop 守护 进程 运行 在 独立 的 Java 3t 
程 中 。 




















下 面 是 基本 安放 步骤 。 
(1) 修改 conf/core-site.xmn1l， 用 下 面 的 内 和 容 来 蔡 换 空 的 <configuration></confi- 
guration> 标 签 : 
«configuration» 
<property> 


«name»fs.default.name«/name» 
«value»hdfs://localhost:9000«/value» 
</property> 
«/configuration» 


( 配置 Hadoop 守护 进程 ) 
(2) 修改 conf/hdfs-site.xml， 用 下 面 的 内 容 来 替换 空 的 <configuration></confi- 
guration> 标 签 : 





«configuration» 
<property> 
<name>dfs.replication</name> 
«value»1«/value» 
«/property» 
«/configuration» 
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(配置 复制 因子 ，1 表明 无 复制 。 更 高 的 复制 因子 需要 更 多 的 市 点 ) 
(3) 修改 conf/mapred-site.xmLl， 用 下 面 内 容 来 蔡 换 空 的 <configuration></confi- 


guration> 标 签 





«configuration» 

«property» 
«name»mapred.job.tracker«/name- 
«value»localhost:9001«/value» 

</property> 

</configuration> 


( 配置 MapReduce 守护 进程 ) 
(4) 下 面 通过 格式 化 HDFS 来 测试 伪 分 布 式 模式 : 


bin/hadoop namenode -format 


如 果 看 到 类 似 下 面 这 样 的 输出 host 不 一 样 )， 那 就 说 明 一 切 OK: 


11/05/26 23:05:36 INFO namenode.NameNode: STARTUP MSG: 
人 

STARTUP MSG: Starting NameNode 

STARTUP MSG: host - treasuryofideas-desktop/127.0.1.1 

STARTUP MSG: args = [-format] 

STARTUP MSG: version - 0.20.2 

STARTUP. MSG: build = 

https://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20 -r 911707; 
compiled by 'chrisdo' on Fri Feb 19 08:07:34 UTC 2010 

Wk Ck ck kck kckckckck kckckckck okck kck okck kck ch ck ok ck kch hokck kck kch ck kck ckck kck ck hc h kck k kk kk kk | 

11/05/26 23:05:37 INFO namenode.FSNamesystem: 
fsOwner-treasuryofideas,treasuryofideas,adm,dialout, 

cdrom,plugdev,lpadmin,admin,sambashare 

11/05/26 23:05:37 INFO namenode.FSNamesystem: supergroup-supergroup 

11/05/26 23:05:37 INFO namenode.FSNamesystem: isPermissionEnabled-true 
11/05/26 23:05:37 INFO common.Storage: Image file of size 105 saved in 0 seconds. 
11/05/26 23:05:37 INFO common.Storage: Storage directory /tmp/hadoop- 
treasuryofideas/dfs/name has been successfully formatted. 

11/05/26 23:05:37 INFO namenode.NameNode: SHUTDOWN MSG: 


人 


SHUTDOWN MSG: Shutting down NameNode at treasuryofideas-desktop/127.0.1.1 


XCkckckck xckckckckckck xc k ck ko xoc kc koe e ecc koc e ke heck kk e hec e kc kc ok ke Kock o kc e e kc ke kk e e ke kc xx e f 


(5) 启动 所 有 Hadoop 守护 进程 . 


bin/start-all.sh 
(6) 检查 日 志文 件 确 认 所 有 组 件 都 运行 了 ， 日 志 默 认 放 在 1og 目录 下 面 : 
你 会 看 到 下 列 日 志文 件 (以 你 的 用 Pad username， 你 的 主机 名 代替 hostname ): 


S ls logs/ 
hadoop-username-datanode-hostname.log 
hadoop-username-datanode-hostname.out 
hadoop-username-jobtracker-hostname.log 
hadoop-username-jobtracker-hostname.out 
hadoop-username-namenode-hostname.log 
hadoop-username-namenode-hostname.out 
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hadoop-username-secondarynamenode-hostname.log 
hadoop-username-secondarynamenode-hostname.out 
hadoop-username-tasktracker-hostname.log 
hadoop-username-tasktracker-hostname.out 
history/ 


(7) 访问 Namenode 和 JobTracker 的 Web 接口 ， 地 址 分 别 是 http://localhost:50070/58l http:// 
localhost:50030/: 
(8) 运行 jps 列 出 所 有 Java 进程 。 你 应 该 会 看 到 下 列 输出 ， 当 然 可 能 还 包括 其 他 正在 运行 的 


Java 进程 : 








2675 JobTracker 

2442 DataNode 

2279 NameNode 

3027 Jps 

2828 TaskTracker 

2603 SecondaryNameNode 


(进程 ID 很 可 能 不 同 ) 
(9) 接 下 来 重新 运行 HDFS 测试 驱动 : 


bin/hadoop fs -put bin input 
bin/hadoop jar hadoop-*-examples.jar grep input output 'start[a-z.]-' 





11/06/04 11:53:07 INFO mapred.FileInputFormat: Total input paths to process : 17 
11/06/04 11:53:08 INFO mapred.JobClient: Running job: job 201106041151. 0001 
11/06/04 11:53:09 INFO mapred.JobClient: map 0$ reduce 0$ 

11/06/04 11:53:24 INFO mapred.JobClient: map 11$ reduce 0$ 

(...) 
11/06/04 11:54:58 INFO mapred.JobClient: map 100$ reduce 27$ 

11/06/04 11:55:10 INFO mapred.JobClient: map 100$ reduce 100$ 

11/06/04 11:55:15 INFO mapred.JobClient: Job complete: job 201106041151, 0001 
qu 
11/06/04 11:55:48 INFO mapred.JobClient: Combine output records-0 
11/06/04 11:55:48 INFO mapred.JobClient: Reduce output records-4 
11/06/04 11:55:48 INFO mapred.JobClient: Map output records-4 


(10) 为 确认 输出 ， 把 输出 从 HDFS 拷贝 到 本 地 文件 系统 ， 然 后 将 内 容 打印 到 标准 输出 上 : 


bin/hadoop fs -get output 

pseudo-output 

cat pseudo-output/* 

cat: psuedo-output/ logs: Is a directory 


























5 starting 
1 started 
1 starts 

1 startup 


(11) 直接 从 HDFS 上 输出 MapReduce 任务 ， 应 该 能 匹配 本 地 文件 系统 上 获得 的 输出 : 


bin/hadoop fs -cat output/part* 


5 starting 
1 started 
1 starts 

1 startup 
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这 样 就 完成 了 伪 分 布 式 的 设置 有 关 Hadoop 集 群 的 安装 配置 请 参阅 :http://hadoop.apache.org/ 
common/docs/r0.20.2/cluster Setup.html。 


A.2 HBase 安 装 与 配置 


HBase Zhi v PCS RE RUP RU P o 
(1) 下 载 最 新 的 稳定 版 HBase， 地 址 : www.apache.org/dyn/closer.cgi/hbase/。 本 书 编写 时 最 新 
稳定 版 是 hbase-0.90.3。 要 特别 注意 它 和 Hadoop 版 本 的 兼容 性 ， 因 为 HBase 有 一 些 依赖 。 
(2) 解压 HBase 文件 : 
tar zxvf hbase-0.90.3.tar.gz. 
(3) 解压 完 找 个 地 方 放 好 ， 我 选择 /opt Hox. 
(4) 创建 符号 链接 1n -s hbase-0.90.3 hbase。 
(5) 修改 配置 文件 conf/hbase-site.xm1, Üf«configuration.«/configuration» f? 
换 成 : 
«configuration» 
«property» 
«name»hbase.rootdir«c«/name-» 
«value»file:///opt/hbase rootdir«/value» 


«/property» 
«/configuration» 


hbase.rootdir 是 HBase 写 人 的 目录 ,我 的 hbase.rootdir 设 成 了 /opt/hbase rootdir. 
你 可 以 改 成 其 他 位 置 。 hbase.rootdir 默认 是 / tmp/hbase-S$í(user.name], 服务 需 重 局 时 有 
可 能 被 删除 。 

(6) 启动 HBase 确认 安装 成 功 : 

bin/start-hbase.sh 

(7) 用 shell 连接 HBase: 


bin/hbase shell 


A.3 Hive 安装 与 配置 


以 下 列 出 必需 的 软件 。 

口 Java 1.6.x, Hadoop 是 在 Sun (现在 是 Oracle ) JDK 下 测试 的 。 

口 Hadoop 0.20.2。Hive 能 用 0.17.x 和 0.20.x 版 本 的 Hadoop。 

安 交 配置 步 又 如 下 。 

(1) 下 载 稳定 版 ， 地 址 : www.apache.org/dyn/closer.cgi/hive/。 编 写本 书 时 的 稳定 版 本 是 
hive-0.70.0。 二 进 制版 文件 名 里 有 -bin， 因 为 是 Java 编写 的 所 以 跨 平 台 。 

(2) 解压 : 


tar zxvf hive-0.7.0-bin.tar.gz. 
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(3) 解压 完 找 个 地 方 放 好 ， 我 选择 /opt Hox. 
(4) 创建 符号 连接 : 

1n -s hive-0.7.0-bin hive 

(5) 设置 HIVE HOME 环境 变量 

export HIVE HOME-/opt/hive 

( 指 癌 的 目录 中 包含 Hive ) 

(6) 把 Hive 添加 到 PATH H : 

export PATH-SHIVE HOME/bin:$PATH 


(7) 执行 which hive 以 确认 设置 成 功 ， 应 该 能 看 见 配 置 好 的 PATH: 


which hive 
/opt/hive/bin/hive 





A.3.1 BOB 


确认 Hadoop 添加 到 了 PATH 里 , 或 者 HADOOP_HOME 环境 变量 指 问 Hadoop 目录 。 可 以 这 样 
设置 HADOOP_HOME: 

(1) 设置 环境 变量 : 

export HADOOP HOME-/opt/hadoop 

(指向 包含 Hadoop 的 目录 ) 

(2) Æ HDFS 上 创建 /tmp 目录 : 

SHADOOP HOME/bin/hadoop fs -mkdir / tmp 

(注意 目录 可 能 已 经 存在 ) 

(3) 给 HDFS 上 的 /tmp 目录 增加 组 用 户 的 写 权限 : 

SHADOOP_HOME/bin/hadoop fs -chmod g+w /tmp\ 

(4) 创建 hive.metastore.warehouse.dir 目录 (默认 是 /user/hive/warehouse ) 





SHADOOP HOME/bin/hadoop fs -mkdir /user/hive/warehouse 
(5) 指定 HDFS HX /user/hive/warehouse BJ 5 fp . 


SHADOOP HOME/bin/hadoop fs -chmod g-w /user/hive/warehouse 


A.3.2 Hadoop zig 


Hive 配置 建立 在 Hadoop 配置 基础 上 。Hive 默认 配置 包含 在 con£/hive-default.xml 中 ， 
通过 修改 这 个 文件 中 的 变量 可 以 覆盖 默认 配置 ， 通 过 修改 HIVE_CONF_DIR 可 以 修改 Hive 配置 
目录 指 回 新 配置 。 除 了 修改 conf/hive-site.xml 的 配置 外 ， 还 可 以 用 以 下 方法 修改 配置 。 


口 Hive 命令 行 SET 命令 .比如 Phive > SET mapred.job.tracker-hostName.organiza- 
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tionName.com:50030;ix A. MapReduce 集群 配置 。 

O hiveconf 配置 变量 。 将 hiveconfig 变量 值 传 给 hive 程序 。 例 如 bin/hive -mapred. 
job.tracker-hostName.organizationName.com:50030 设置 MapReduce 集群 和 上 
面 的 SET 命令 完全 一 样 。hiveconf 一 次 可 以 传人 多 个 ,不 过 传人 大 量 参数 不 太 容 易 维 护 ， 
可 以 把 所 有 变量 设置 为 环境 变量 HIVE OPTS 的 值 。 

要 确认 Hive 安装 成 功 ， 需 执行 SHIVE_HOME/bin/hive。 





A.4 Hypertable 安 装 与 配置 


Hypertable 最 简单 的 安装 方式 是 用 二 进 制 包 , 它 和 所 有 用 glibc 2.4+ 的 系统 者 兼容。 如 条 你 的 
系统 使 用 更 老 的 glibc, 则 需要 手动 编译 打包 Hypertable, 具 体 说 明 请 参阅 :http://code.google.conyp/ 
hypertable/wiki/How ToPackage ; 

Hypertable 同时 提供 32 位 及 64 位 平台 的 二 进 制 包 ， 提 供 的 格式 包括 .rpm、.deb、.dmg。 
此 外 还 有 .tar.gz2 的 。 为 中 立 起 见 ， 我 选择 .tar .gz2。 

参照 下 面 的 步骤 安装 64 位 Hypertable .tar.gz2 包 。 

(1) 下 载 最 新 发 布 版 地 址 : www.hypertable.com/download/ 。 编 写本 书 时 的 最 新 版 是 
0.9.5.0.pre5, 

(2) HEHEH : 

tar jxvf hypertable-0.9.5.0.pre5-linux-x86 64.tar.bz2. 

(3) 解压 完 找 个 地 方 放 好 ， 我 选择 /opt 目录 ， 结 构 如 下 : 

/opt/hypertable/«version-» 

推荐 按 这 个 结构 放 ， 命 令 如 下 : 


cd hypertable-0.9.5.0.pre5-linux-x86 64/opt, and 
mv hypertable /opt 


(4) 创建 符号 链接 **current**: 
ln -s /opt/hypertable/0.9.5.0.pre^5 /opt/hypertable/current 
(5) 也 可 以 使 其 兼容 FHS ( 文件 系统 层次 标准 ，Filesystem Hierarchy Standard )， 此 项 可 选 。 











A.4.1 FHS2EZ 


FHS 是 Linux/Unix 文件 系统 推荐 的 文件 组 织 方式 。 标 准 建议 把 软件 包 的 配置 放 到 /etcy/opt 
P, 数据 放 到 /var/opt rH. 

要 计 Hypertable 兼容 FHS， 请 参照 下 列 步 又 。 

(1) 用 你 的 用 户 和 组 〈 可 用 ia 命令 获取 到 ) 答 换 <userName> :<groupName> 并 执行 下 面 的 


SA 
x: 


z 


sudo mkdir /etc/opt/hypertable /var/opt/hypertable 
sudo chown «userName»:«groupName» /etc/opt/hypertable /var/opt/hypertable 
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(2) 运行 下 面 的 命 


$ bin/fhsize.sh: 

Setting up /var/opt/hypertable 

Setting up /etc/opt/hypertable 

fshize /opt/hypertable/current: success 


在 升级 Hypertable HF, FHS 兼容 能 避免 重新 创建 配置 、 日 志 、hyperspace 和 localBroker 根 
目录 。 

(3) 确认 Hypertable 兼容 FHS, 7| /opt/hypertable/current 目录 内 容 并 确认 符号 链接 ， 
目录 应 该 是 像 下 面 这 样 : 

$ cd /opt/hypertable/current 

$ ls -1 

bin 

conf -> /etc/opt/hypertable 

examples 

fs -> /var/opt/hypertable/fs 

hyperspace -» /var/opt/hypertable/hyperspace 

include 

lib 

log -> /var/opt/hypertable/log 

Monitoring 

run -> /var/opt/hypertable/run 


A.4.2 配置 Hadoop 和 Hypertable 
如 果 你 有 按 本 草 说 明 配 置 Hadoop, Jl conf/core-site.xml 里 的 HDFS 配 置 应 该 是 这 样 : 


«configuration» 
«property 
«name»fs.default.name«/name» 
«value»hdfs://localhost:9000«/value» 
«/property» 
«/configuration» 


(conf/core-site.xml 的 内 容 ) 
现在 要 修改 conf/hypertable .cfg: 


(1) 确认 hypertable.cfg 里 的 有 关 HDFS 的 配置 HdfsBroker.fs.default.name 是 : 


t HDFS Broker 

HdfsBroker.fs.default.name-hdfs://localhost:9000 

matches with the HDFS daemon configuration in Hadoop conf/core-site.xml 
Create /hypertable directory on HDFS: 

SHADOOP HOME/bin/hadoop fs -mkdir /hypertable 


(2) 修改 /hypertable H3EB SE UR : 


SHADOOP HOME/bin/hadoop fs -chmod g-w /hypertable 





A.5 MongoDB 安 装 与 配置 


从 www.mongodb.org/downloads 下 载 最 新 版 本 MongoDB， 其 中 包含 大 多 主流 操作 系统 的 二 
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进 制 包 。 我 下 载 的 是 64 位 Linux 的 1.8.2-rc2 版 。 如 有 果 你 选择 其 他 版 本 ， 大 部 分 安 交 步骤 应 该 也 
还 是 下 面 这 样 的 。 

(1) AE HA : 

tar ZXVE mongodb-osx-x86 064-1.8.2-rc2.tgz 

(2) 解压 完 找 个 地 方 放 好 ， 我 选择 /opt 日 录 ， 结 构 如 下 : 

mv mongodb-osx-x86_64-1.8.2-rc2 /opt 

(3) 创建 符号 链接 mongodb t6 mj H3 : 


ln -s mongodb-osx-x86 64-1.8.2-rc2 mongodb 


B" & MongoDB 
MongoDB 数据 默认 存放 在 /datay/db 目录 下 。 如 采 想 用 默认 目录 ， 需 创建 目录 并 设 好 权限 : 


$ sudo mkdir -p /data/db 
$ sudo chown 'id -u' /data/db 


如 果 想 用 别 的 目录 存放 MongoDB 数据 文件 ， 比 如 /opt/data/db， 可 以 这 样 做 : 


$ sudo mkdir -p /opt/data/db 
$5 sudo chown 'id -u` /opt/data/db 


不 用 默认 值 的 话 ， 记 得 把 新 目录 作为 --dbpath 的 参数 传 给 MongoDB, XE: 


bin/mongod --dbpath /opt/data/db 





A.6 CouchDBZ X 5 fi E 


要 安装 CouchDB, fium RKI Erlang 和 Erlang OTP., 

Linux 和 Unix E% Erlang 挺 简单 的 。Mac OS X 上 可 以 利用 brew ( http://mxcl.github.com/ 
homebrew/ ) %3% Erlango Windows 上 最 简单 的 方式 是 安装 Couchbase 的 Couchbase Serverl.l, 地 
hE: www.couchbase.com/downloads， 它 包括 了 Erlang Widnows 版 、CouchDB 还 有 其 他 一 些 特性 。 
有 关 在 Windows 上 安放 Apache Couch 的 说 明 可 以 在 这 里 找到 : http;//wiki.apache.org/couchdb/ 
Installing on Windows， 其 中 也 包括 Erlang 的 安装 步骤 。 

Apache CouchDB 安装 包 大 多 数 平 台 都 有 ， 安 竣 包 和 说 明 可 以 在 如 下 地 址 找到 : 
http://wiki.apache.org/couchdb/Installation。CouchDB 背后 的 公司 Couchbase 也 为 许多 平台 提供 了 
EKRE. 

Bil EC A) Re DU] bz H1 3 RE XE C rS ISBN IA RAAU, RARI B B 
获取 ， 因 此 你 也 可 以 选择 用 源 代码 编译 安装 。 下 面 作为 一 个 例子 ， 我 们 演示 如 何在 Ubuntu 10.04 
上 编译 安装 CouchDB。 











Ubuntu10.04 的 CouchDB 源 代码 安装 


在 Ubuntu Linux 用 源 代 码 安 装 CouchDB 可 以 人 参照 下 面 的 步骤 。 
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(1) 安装 依赖 项 . 


sudo apt-get build-dep couchdb 
sudo apt-get install xulrunner-1.9.2-dev libicu-dev libcurl4-gnutls-dev libtool 


(2) 获取 xulrunner 版 本 : 

xulrunner -v 

我 的 机 器 上 Ubuntu 10.04 输出 是 Mozilla XULRunner 1.9.2.17 -20110424212116, 
(3) 创建 xulrunner 共享 类 库 加 载 配置 ， 这 是 因为 可 能 有 多 个 xulrunner 版 本 : 


sudo vi /etc/ld.so.conf.d/xulrunner.conf 


(4) S P917 


/usr/lib/xulrunner-1.9.2.17 
/usr/lib/xulrunner-devel-1.9.2.17 


(5) HÍT ldconfig: 





sudo /sbin/ldconfig 
(6) 获取 源码 ， 可 以 用 SVN 或 Git: 
git clone git://git.apache.org/couchdb.git 


(7) VEA WIH K: 


cd couchdb 
(8) Bootstrap ZZ : 





./bootstrap 


注意 ， 如 用 这 文 步 出 错 ， 你 可 能 需要 安 猴 依赖 项 ，INSTALL .Unix 文件 描述 了 所 有 依赖 项 
还 需要 安装 .aclocal， 命 今 为 :sudo apt-get install automake。 


(9) 配置 : 
./configure 


(10) 编译 安装 





make && sudo make install 

(11) 创建 一 个 名 为 couchab 的 用 户 : 

useradd couchdb 

(12) 修改 CouchDB 目录 权限 给 couchab 用 户 。 
(13) 修改 CouchDB 目录 所 有 权 给 couchdb HP, 


chown -R couchdb:couchdb /usr/local/etc/default/couchdb 
chown -R couchdb:couchdb /usr/local/etc/init.d/couchdb 
chown -R couchdb:couchdb /usr/local/etc/couchdb 
chown -R couchdb:couchdb /usr/local/etc/logrotate.d/couchdb 
chown -R couchdb:couchdb /usr/local/lib/couchdb 
chown -R couchdb:couchdb /usr/local/bin/couchdb 

/ 


chow -R couchdb:couchdb /usr/local/var/lib/couchdb 
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chown -R couchdb:couchdb /usr/local/var/run/couchdb 
chown -R couchdb:couchdb /usr/local/var/log/couchdb 
chown -R couchdb:couchdb /usr/local/share/doc/couchdb 
chown -R couchdb:couchdb /usr/local/share/couchdb 


A.7 Redis 安 装 与 配置 


参照 下列 步骤 安装 Redis。 

(1) 下 载 最 新 的 稳定 版 本 ， 地 址 : http://redis.io/download。 编 写本 书 时 最 新 版 本 是 2.2.8。 
(2) 解压 缩 : tar zxvf redis-2.2.8.tar.gz 

(3) 将 文件 移动 到 /opt 目录 : mv redis-2.2.8 /opt 

(4) 创建 链接 : 

ln -s redis-2.2.8 redis 

(5) 编译 : 


cd redis 
make 


(6) make test .来 确认 。 





A.8 Cassandra 安 装 与 配置 


参照 下 列 步骤 安装 Cassandra. 

(1) 下 载 二 进 制 开 发 版 地 址 : http://cassandra.apache.org/download/。 编 写本 书 时 最 新 版 本 是 
0.8.0-rcl1。 下 载 文 件 为 : apache-cassandra-0.8.0-rcl-bin.tar.gz。 

(2) 解压 缩 : 

tar zxvf apache-cassandra-0.8.0-rcl-bin.tar.gz 

(3) 将 文件 移动 到 目标 目录 : 

mv apache-cassandra-0.8.0-rcl /opt 


(4) 创建 名 为 apache-cassandra 的 链接 指向 包含 Cassandra 的 目录 : 


ln -s apache-cassandra-0.8.0-rcl apache-cassandra 








A.8.1 Rig Cassandra 


Cassandra 通过 文件 con£/cassandra.yaml 配置 。 大 部 分 默认 配置 适用 于 单 节 点 模式 ， 只 
要 确认 cassandra.yaml 中 声明 的 目录 都 存在 就 行 。 
下 列 配置 指 问 文件 系统 : 


i directories where Cassandra should store data on disk. 
data file directories: 
- /var/lib/cassandra/data 
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# commit log 
commitlog directory: /var/lib/cassandra/commitlog 


# saved caches 
saved caches directory: /var/lib/cassandra/saved caches 


用 命令 sudo mkdir -p /var/lib/cassandra 创建 /var/ 1ib/cassandras T 目录 
设置 了 适当 的 权限 ， 以 便 运 行 Cassandra 进程 可 以 写 这 个 目录 。 


A.8.2 ”配置 log4j 


log4j 服务 需 属 性 声明 在 文件 109g4j-server.properties P, Log4j 的 appender 文件 声明 
如 下 : 

logáj.appender.R.File-/var/log/cassandra/system.log 

确保 目录 /var/1og/cassandra 存在 并 设置 适当 的 写 权 限 , 以 便 运 行 Cassandra 进程 可 以 写 
这 个 目录 。 


A.8.3 Cassandra 源 码 安 装 


需要 下 列 软件 : 

Q Java 1.6.x 

DQ Ant 1.8.2 

参照 下 面 的 步骤 编译 Cassandra 源码 。 

(1) 从 http:/cassandra.apache.org/download/ 下 载 最 新 的 开发 版 源码 。 编 写本 书 时 的 版 本 是 
0.8.0.rcl. 

(2) 解压 缩 : 

tar zxvf apache-cassandra-0.8.0-rcl-src.tar.gz. 


(3) 执行 Ant 编译 任务 : 


ant 


A.9 Membase Server 和 Memcached 安 装 与 配置 





从 www.couchbase.com/downloads 下载 相关 版 本 。 有 如 下 三 个 不 同 的 版 本 可 以 下 载 安装 : 

口 Membase 服务 天 

口 Memcached Jl 5-2 

口 Couchbase 服务 大 

从 上 面 网 址 下 载 适合 你 的 操作 系统 的 Membase。 二 进 制版 容易 安装 。 下 面 用 Mac OS X 演示 





以 下 步骤 均 与 Mac OS X 相关 。 
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(1) Mac OS X Jt Membase TJ, zip Œ, 文件 是 : membase-server-community-1.6.5.3.zip 
(2) 解压 缩 : 

unzip membase-server-community-1.6.5.3.zip. 

解压 缩 完 的 程序 位 于 Mac OSX 格 式 的 目录 Membase.app Fo 

(3) 将 Membase .app 移动 到 /Application 目录 或 其 它 保存 应 用 程序 的 目录 中 。 








A.10 Nagios ZE 5E fit & 


本 节 只 介绍 在 Ubuntu 上 源码 安装 Nagios 。 更 多 细节 请 参阅 Nagios 文档 ， 地 址 : 


www.nagios.org/documentation. 


下 列 软件 是 必需 的 : 

L] Apache 2 

U PHP 

O GCC ( http;//gcc.gnu.org/ )、 编 译 需 及 开发 包 
a GD 开发 包 


参照 下 面 的 步骤 安装 必需 软件 。 
(1) Z&& Apache 2: 


sudo apt-get install apache2 

(2) 安装 PHP: 

sudo apt-get install libapache2-mod-php5 

(3) 安装 GCC 和 开发 包 : 

sudo apt-get install build-essential 

(4) 安装 GD 开发 包 : 

sudo apt-get install libgd2-xpm-dev 

推荐 创建 一 个 名 为 nagios 的 用 户 来 运行 Nagios 进程 。 在 Ubuntu 上 创建 nagions 用 户 
如 下 : 


sudo /usr/sbin/useradd -m -s /bin/bash nagios 
sudo passwd nagios 


( 设 个 密码 ， 我 一 般 用 nagios。 命令 行 会 提示 输入 密码 并 再 次 确认 。) 
创建 nagcmd 组 ， 然 后 把 nagios hdi apache 用 户 都 添加 到 这 个 组 里 : 


sudo /usr/sbin/groupadd nagcmd 
sudo /usr/sbin/usermod -a -G nagcmd nagios 
sudo sudo /usr/sbin/usermod -a -G nagcmd nagios 


A.10.1 下 载 和 编译 Nagios 
安装 完 所 有 必需 软件 后 ， 按 如 下 步 叱 下载 并 安装 Nagios: 
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(1) FÆ Nagios Core 和 Nagios Plugins, 地址: www.nagios.org/download/。 编 写本 书 时 Nagios 
Core 版 本 是 3.2.3, Nagios Plugins 版 本 是 1.4.15. 

(2) 解压 缩 : 

tar zxvf nagios-3.2.3.tar.gz 

(3) 进入 nagios-3.2.3 目录 : 

cd nagios-3.2.3 

(4) 配置 Nagios: 

./configure --with-command-group-nagcmd 

(5) 编 去 : 

make all 

(6) XC: 

sudo make install 

(7) 安装 init 脚本 : 

sudo make install-init 

命令 输入 如 下 : 


/usr/bin/install -c -m 755 -d -o root -g root /etc/init.d 
/usr/bin/install -c -m 755 -o root -g root daemon-init /etc/init.d/nagios 


*** Tnit script installed *** 
(8) RRF AE EA : 


sudo make install-config. 


输出 如 下 : 


/usr/bin/install -c -m 775 -o nagios -g nagios -d /usr/local/nagios/etc 
/usr/bin/install -c -m 775 -o nagios -g nagios -d /usr/local/nagios/etc/objects 
/usr/bin/install -c -b -m 664 -o nagios -g nagios sample-config/nagios.cfg 


/usr/local/nagios/etc/nagios.cfg 

/usr/bin/install -c -b -m 664 -o nagios -g nagios sample-config/cgi.cfg 

/usr/local/magios/etc/cgi.cfg 

/usr/bin/install -c -b -m 660 -o nagios -g nagios sample-config/resource.cfg 
/usr/local/nagios/etc/resource.cfg 

/usr/bin/install -c -b -m 664 -o nagios -g nagios sample-config/template- 

object/templates.cfg /usr/local/nagios/etc/objects/templates.cfg 
/usr/bin/install -c -b -m 664 -o nagios -g nagios sample-config/template- 

object/commands.cfg /usr/local/nagios/etc/obgjects/commands.cfg 














/usr/bin/install -c -b -m 664 -o nagios -g nagios sample-config/template- 
object/contacts.cfg /usr/local/nagios/etc/objects/contacts.cfg 
/usr/bin/install -c -b -m 664 -o nagios -g nagios sample-config/template- 
object/timeperiods.cfg /usr/local/nagios/etc/obgjects/timeperiods.cfg 
/usr/bin/install -c -b -m 664 -o nagios -g nagios sample-config/template- 


object/localhost.cfg /usr/local/nagios/etc/objects/localhost.cfg 
/usr/bin/install -c -b -m 664 -o nagios -g nagios sample-config/template- 
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object/windows.cfg /usr/local/nagios/etc/objects/windows.cfg 
/usr/bin/install -c -b -m 664 -o nagios -g nagios sample-config/template- 
object/printer.cfg /usr/local/mnagios/etc/objects/printer.cfg 
/usr/bin/install -c -b -m 664 -o nagios -g nagios sample-config/template- 
object/switch.cfg /usr/local/nagios/etc/objects/switch.cfg 


*** Config files installed *** 
sudo make install-commandmode 


输出 如 下 : 


/usr/bin/install -c -m 775 -o nagios -g nagcmd -d /usr/local/nagios/var/rw 
chmod g-«s /usr/local/nagios/var/rw 


*** External command directory configured *** 


A.10.2 配置 


(1) 配置 邮件 地 址 。 

(2) 修改 联系 配置 文件 : 

sudo vi /usr/local/nagios/etc/objects/contacts.cfg. 

将 邮件 地 址 nagios@localhosf 改 成 你 目 己 的 。 

下 面 几 步 配置 Nagios Web 界面 : 

(3) 把 Nagios Web 配置 文件 安装 到 Apache 的 conf.d 目录 : sudo make install-webconf 


/usr/bin/install -c -m 644 
sample-config/httpd.conf /etc/apache2/conf.d/nagios.cont 
*** Nagios/Apache conf file installed *** 


(4) 创建 登录 Nagios Web 界面 的 账号 : 

sudo htpasswd -c /usr/local/mnagios/etc/htpasswd.users nagiosadmin 
系统 会 提示 你 输入 密码 并 确认 。 

(5) 重启 Apache: 


sudo /etc/init.d/apache2 reload 





A.10.3 编译 和 安装 Nagios 插 件 


前 面 我 们 从 www.nagios.org/download/ F ZX& f Nagios 插件 ， 版 本 是 1.4.15. 
编译 安装 Nagios 插件 的 步骤 如 下 。 
(D) fif HA : 


tar zxvf nagios-plugins-1.4.15.tar.gz 
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(2) 进入 插件 目录 : 

cd nagios-plugins-1.4.15 

(3) 配置 : 

./configure --with-nagios-user-nagios --with-nagios-group-nagios 
(4) 编译 : 

make 

(5) EX 


sudo make install 
这 样 Nagios 和 插件 就 安装 好 了 ， 可 以 启动 Nagios 了 。 其 他 配置 这 里 就 不 再 介绍 ， 可 以 阅读 
官方 文档 : www.nagios.org/documentation 了 解 更 多 详情 。 





A.11 RRDtool 安 装 与 配置 


KENAU Linux 和 Unix 上 安装 RRDtool, 安装 RRDtool 需要 SVN X m, automake., 


autoconf 和 libtool, 
源码 安装 RRDtool 如 下 : 


svn checkout svn://svn.oetiker.ch/rrdtool/trunk/program 
mv program rrdtool-trunk 

cd rrdtool-trunk 

./autogen.sh 

./configure --enable-maintainer-mode 

make 

sudo make install 


A.12 MySQL z xcHandler Socket 
Handler Socket 适用 于 MySQL IRI gF 5.x 版 本 。 安 装 如 下 : 


git clone git://github.com/ahiguti/HandlerSocket-Plugin-for-MySQL.git 
cd HandalerSocket-Plugin-for-MySQL 

./autogen.sh 

./configure --with-mysql-source-/root/install/mysql-«version number» 
--with-mysql-bindir-/usr/bin 

make 

make install 
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欲 了 解 当今 最 炙手可热 的 NoSQL 新 型 数 
据 库 技术 ， 下 面 这 本 书 必 读 ; 
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本 书 是 一 本 NoSQL 入 门 书 ， 从 最 基本 的 
NoSQL 发 展 史 开始 ， 介 绍 了 memcached、 
Tokyo Tyrant、Redis 和 MongoDB 这 四 种 
NoSQL 数 据 库 的 使 用 背景 、 优 缺点 和 具体 应 
EM 
在 帮助 读者 全 面 了 解 NoSQL 能 解决 的 具体 问 
题 ， 为 读者 开发 数据 库 提 供 更 多 的 选择 。 最 
后 还 介绍 了 如 何 将 MySQL 数 据 库 NoSQL 化 。 








NoSQL 数 据 库 是 非 党 高效 、 强 大 的 海量 数据 存储 与 处 理工 具 。 大 部 分 NoSQL 数 据 库 都 能 很 好 地 适应 数据 
增长 ， 并 且 能 灵活 适应 半 结 构 化 数据 和 稀 踊 数据 集 。 这 本 上 手指 南 全 面 展 示 了 NoSQL 数 据 库 的 基础 概念 和 实践 
方案 。 本 书 作 者 、 专 家 Shashank Tiwari 首 先 介 绍 NoSQL 的 特点 和 上 典型 用 例 ， 青 分析 NoSQL 适 用 于 应 用 程序 栈 的 什 
么 位 置 。 他 独到 的 见解 能 帮助 你 针对 特定 的 数据 存储 需求 选择 最 适合 的 NoSQL 方 案 。 








依 ”揭示 NoSQL 数 据 库 的 关键 概念 ， 包 括 列 族 存 储 、 键 / 值 存储 以 及 文档 数据 库 ; 

€ ”深入 介绍 NoSQL 产 品 及 Hadoop 产 品 族 的 安装 与 配置 ; 

€ ”解释 存储 、 访 问 和 查询 NoSQL 数 据 的 方法 ， 使 用 到 的 产品 包括 MongoDB、HBase、Cassandra、 
Redis、CouchDB、Google App Engine 等 ; 

€ ”检视 架构 和 内 部 结构 ; 

提供 最 佳 实践 以 及 性 能 调 优 和 扩展 配置 方面 的 指导 ; 

令 ”展示 一 系列 与 NoSQL、 分 布 式 平台 及 大 规模 处 理 相 关 的 工具 ， 包 括 Hive、Pig、RRDtool、Nagios 等 。 
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8 全 面 展 示 NoSQL 基 础 概念 和 实践 方案 
B 理解 大 数据 的 各 种 技术 架构 和 思想 
图 新 潮 热 门 技术 一 览 无 余 
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